다중대체와 재현자료 작성
사회가 발전함에 따라 이용자의 다양한 분석 요구에 대응하기 위해 개인 단위로 구성된 마이크로데이터 제공이 증가했다. 나아가 센서스, 행정자료와 같은 전수자료를 마이크로데이터 형태로 제공받아 연구하고자 하는 요구 역시 커지고 있다. 정책결정, 학술목적 등을 위한 마이크로데이터 분석은 가치 창출 측면에서 대단히 바람직하다. 하지만 자료 유용성이 확보된 마이크로데이터 제공은 개인정보가 노출될 가능성이라는 위험을 가질 수 밖에 없다. 이에, 자료의 유용성을 확보하면서 개인정보보호를 보장할 수 있는 여러 방법들이 고려되어 왔다. 이러한 방법...
Saved in:
Published in | Ŭngyong tʻonggye yŏnʼgu Vol. 32; no. 1; pp. 83 - 97 |
---|---|
Main Authors | , , , |
Format | Journal Article |
Language | Korean |
Published |
한국통계학회
2019
|
Subjects | |
Online Access | Get full text |
ISSN | 1225-066X 2383-5818 |
DOI | 10.5351/KJAS.2019.32.1.083 |
Cover
Abstract | 사회가 발전함에 따라 이용자의 다양한 분석 요구에 대응하기 위해 개인 단위로 구성된 마이크로데이터 제공이 증가했다. 나아가 센서스, 행정자료와 같은 전수자료를 마이크로데이터 형태로 제공받아 연구하고자 하는 요구 역시 커지고 있다. 정책결정, 학술목적 등을 위한 마이크로데이터 분석은 가치 창출 측면에서 대단히 바람직하다. 하지만 자료 유용성이 확보된 마이크로데이터 제공은 개인정보가 노출될 가능성이라는 위험을 가질 수 밖에 없다. 이에, 자료의 유용성을 확보하면서 개인정보보호를 보장할 수 있는 여러 방법들이 고려되어 왔다. 이러한 방법 중 하나로 재현자료(synthetic data)를 생성해서 활용하는 방법이 연구되어 왔다. 본 논문은 재현자료 생성과 관련된 방법론 및 주의사항을 소개하여, 재현자료의 이해를 도모하고자 한다. 이를 위해 재현자료 작성에 필수적인 다중대체, 베이지안 예측 모형 및 베이지안 붓스트랩 등의 개념들을 먼저 설명하고, 완전 재현자료 및 부분 재현자료에 대해 살펴본다. 특히, 재현자료 작성을 심도 깊이 이해하기 위해 순차회귀 다중대체(sequential regression multivariate imputation)를 이용해 경시적(longitudinal) 자료를 재현자료로 작성하는 구체적 사례를 살펴본다.
As society develops, the dissemination of microdata has increased to respond to diverse analytical needs of users. Analysis of microdata for policy making, academic purposes, etc. is highly desirable in terms of value creation. However, the provision of microdata, whose usefulness is guaranteed, has a risk of exposure of personal information. Several methods have been considered to ensure the protection of personal information while ensuring the usefulness of the data. One of these methods has been studied to generate and utilize synthetic data. This paper aims to understand the synthetic data by exploring methodologies and precautions related to synthetic data. To this end, we first explain muptiple imputation, Bayesian predictive model, and Bayesian bootstrap, which are basic foundations for synthetic data. And then, we link these concepts to the construction of fully/partially synthetic data. To understand the creation of synthetic data, we review a real longitudinal synthetic data example which is based on sequential regression multivariate imputation. |
---|---|
AbstractList | 사회가 발전함에 따라 이용자의 다양한 분석 요구에 대응하기 위해 개인 단위로 구성된 마이크로데이터 제공이 증가했다. 나아가 센서스, 행정자료와 같은 전수자료를 마이크로데이터 형태로 제공받아 연구하고자 하는 요구 역시 커지고 있다. 정책결정, 학술목적 등을 위한 마이크로데이터 분석은 가치 창출 측면에서 대단히 바람직하다. 하지만 자료 유용성이 확보된 마이크로데이터 제공은 개인정보가 노출될 가능성이라는 위험을 가질 수 밖에 없다. 이에, 자료의 유용성을 확보하면서 개인정보보호를 보장할 수 있는 여러 방법들이 고려되어 왔다. 이러한 방법 중 하나로 재현자료(synthetic data)를 생성해서 활용하는 방법이 연구되어 왔다. 본 논문은 재현자료 생성과 관련된 방법론 및 주의사항을 소개하여, 재현자료의 이해를 도모하고자 한다. 이를 위해 재현자료 작성에 필수적인 다중대체, 베이지안 예측 모형 및 베이지안 붓스트랩 등의 개념들을 먼저 설명하고, 완전 재현자료 및 부분 재현자료에 대해 살펴본다. 특히, 재현자료 작성을 심도 깊이 이해하기 위해 순차회귀 다중대체(sequential regression multivariate imputation)를 이용해 경시적(longitudinal) 자료를 재현자료로 작성하는 구체적 사례를 살펴본다. As society develops, the dissemination of microdata has increased to respond to diverse analytical needs of users.
Analysis of microdata for policy making, academic purposes, etc. is highly desirable in terms of value creation.
However, the provision of microdata, whose usefulness is guaranteed, has a risk of exposure of personal information.
Several methods have been considered to ensure the protection of personal information while ensuring the usefulness of the data.
One of these methods has been studied to generate and utilize synthetic data.
This paper aims to understand the synthetic data by exploring methodologies and precautions related to synthetic data.
To this end, we first explain muptiple imputation, Bayesian predictive model, and Bayesian bootstrap, which are basic foundations for synthetic data.
And then, we link these concepts to the construction of fully/partially synthetic data.
To understand the creation of synthetic data, we review a real longitudinal synthetic data example which is based on sequential regression multivariate imputation. KCI Citation Count: 1 As society develops, the dissemination of microdata has increased to respond to diverse analytical needs of users. Analysis of microdata for policy making, academic purposes, etc. is highly desirable in terms of value creation. However, the provision of microdata, whose usefulness is guaranteed, has a risk of exposure of personal information. Several methods have been considered to ensure the protection of personal information while ensuring the usefulness of the data. One of these methods has been studied to generate and utilize synthetic data. This paper aims to understand the synthetic data by exploring methodologies and precautions related to synthetic data. To this end, we first explain muptiple imputation, Bayesian predictive model, and Bayesian bootstrap, which are basic foundations for synthetic data. And then, we link these concepts to the construction of fully/partially synthetic data. To understand the creation of synthetic data, we review a real longitudinal synthetic data example which is based on sequential regression multivariate imputation. 사회가 발전함에 따라 이용자의 다양한 분석 요구에 대응하기 위해 개인 단위로 구성된 마이크로데이터 제공이 증가했다. 나아가 센서스, 행정자료와 같은 전수자료를 마이크로데이터 형태로 제공받아 연구하고자 하는 요구 역시 커지고 있다. 정책결정, 학술목적 등을 위한 마이크로데이터 분석은 가치 창출 측면에서 대단히 바람직하다. 하지만 자료 유용성이 확보된 마이크로데이터 제공은 개인정보가 노출될 가능성이라는 위험을 가질 수 밖에 없다. 이에, 자료의 유용성을 확보하면서 개인정보보호를 보장할 수 있는 여러 방법들이 고려되어 왔다. 이러한 방법 중 하나로 재현자료(synthetic data)를 생성해서 활용하는 방법이 연구되어 왔다. 본 논문은 재현자료 생성과 관련된 방법론 및 주의사항을 소개하여, 재현자료의 이해를 도모하고자 한다. 이를 위해 재현자료 작성에 필수적인 다중대체, 베이지안 예측 모형 및 베이지안 붓스트랩 등의 개념들을 먼저 설명하고, 완전 재현자료 및 부분 재현자료에 대해 살펴본다. 특히, 재현자료 작성을 심도 깊이 이해하기 위해 순차회귀 다중대체(sequential regression multivariate imputation)를 이용해 경시적(longitudinal) 자료를 재현자료로 작성하는 구체적 사례를 살펴본다. 사회가 발전함에 따라 이용자의 다양한 분석 요구에 대응하기 위해 개인 단위로 구성된 마이크로데이터 제공이 증가했다. 나아가 센서스, 행정자료와 같은 전수자료를 마이크로데이터 형태로 제공받아 연구하고자 하는 요구 역시 커지고 있다. 정책결정, 학술목적 등을 위한 마이크로데이터 분석은 가치 창출 측면에서 대단히 바람직하다. 하지만 자료 유용성이 확보된 마이크로데이터 제공은 개인정보가 노출될 가능성이라는 위험을 가질 수 밖에 없다. 이에, 자료의 유용성을 확보하면서 개인정보보호를 보장할 수 있는 여러 방법들이 고려되어 왔다. 이러한 방법 중 하나로 재현자료(synthetic data)를 생성해서 활용하는 방법이 연구되어 왔다. 본 논문은 재현자료 생성과 관련된 방법론 및 주의사항을 소개하여, 재현자료의 이해를 도모하고자 한다. 이를 위해 재현자료 작성에 필수적인 다중대체, 베이지안 예측 모형 및 베이지안 붓스트랩 등의 개념들을 먼저 설명하고, 완전 재현자료 및 부분 재현자료에 대해 살펴본다. 특히, 재현자료 작성을 심도 깊이 이해하기 위해 순차회귀 다중대체(sequential regression multivariate imputation)를 이용해 경시적(longitudinal) 자료를 재현자료로 작성하는 구체적 사례를 살펴본다. As society develops, the dissemination of microdata has increased to respond to diverse analytical needs of users. Analysis of microdata for policy making, academic purposes, etc. is highly desirable in terms of value creation. However, the provision of microdata, whose usefulness is guaranteed, has a risk of exposure of personal information. Several methods have been considered to ensure the protection of personal information while ensuring the usefulness of the data. One of these methods has been studied to generate and utilize synthetic data. This paper aims to understand the synthetic data by exploring methodologies and precautions related to synthetic data. To this end, we first explain muptiple imputation, Bayesian predictive model, and Bayesian bootstrap, which are basic foundations for synthetic data. And then, we link these concepts to the construction of fully/partially synthetic data. To understand the creation of synthetic data, we review a real longitudinal synthetic data example which is based on sequential regression multivariate imputation. |
Author | Min-jeong Park 김정연 Joungyoun Kim 박민정 |
Author_xml | – sequence: 1 fullname: 김정연 – sequence: 2 fullname: Joungyoun Kim – sequence: 3 fullname: 박민정 – sequence: 4 fullname: Min-jeong Park |
BackLink | https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002444630$$DAccess content in National Research Foundation of Korea (NRF) |
BookMark | eNpFkL1Ow0AQhE8oSISQF4AGCVFQ2Nzens_nMgoB8iMiQZDoTv47ZBwcZENBlyIdKUgHTRpS0oB4q5h3wCEobDO70qfRzmySUjJIQkK2gZoWWnDYbtUuTEbBMZGZYFKJa6TMUKJhSZAlUgbGLIMKcbVBqll2Q4sRwLh0ymRv_jTLZ5P5eJh_fuWvw918-v79Msqnz_O3cXFM8tHHFlnXbj8Lq39aIZfHjV791Oh0T5r1WseIAbhtCEdzCKnmvss9z6IBIkMn0L6PTHAvoCzgrhQSQyE9HQCnFDR4NlLNtCd9rJCDpW-SahX7kRq40a9eD1Scqtp5r6k4F0xSLNj9JRtH2X2kkiDrq1at3V3UAMwRRbiiB_ufSx7S6DYMIlfdFYubPqqz7lEDfr_gC25n5ZetEBSC2dLCH6Qvb4o |
ContentType | Journal Article |
DBID | HZB Q5X DBRKI TDB JDI ACYCR |
DEWEY | 519.5 |
DOI | 10.5351/KJAS.2019.32.1.083 |
DatabaseName | KISS Korean Studies Information Service System (KISS) B-Type DBPIA - 디비피아 Korean Database (DBpia) KoreaScience Korean Citation Index |
DatabaseTitleList | |
DeliveryMethod | fulltext_linktorsrc |
Discipline | Statistics Applied Sciences Mathematics |
DocumentTitleAlternate | 다중대체와 재현자료 작성 Multiple imputation and synthetic data |
DocumentTitle_FL | Multiple imputation and synthetic data |
EISSN | 2383-5818 |
EndPage | 97 |
ExternalDocumentID | oai_kci_go_kr_ARTI_4462803 JAKO201912964890837 NODE11400147 3662785 |
GroupedDBID | 9ZL ALMA_UNASSIGNED_HOLDINGS HZB JDI OK1 Q5X DBRKI TDB ACYCR |
ID | FETCH-LOGICAL-k1147-69f41e0f4ca4bb50d33239dfcc3264bd02d4a8683e68bfd14001f1b730f2fb8c3 |
ISSN | 1225-066X |
IngestDate | Sun Mar 09 07:53:02 EDT 2025 Fri Dec 22 12:02:26 EST 2023 Thu Feb 06 13:33:54 EST 2025 Wed Jan 24 03:12:01 EST 2024 |
IsDoiOpenAccess | true |
IsOpenAccess | true |
IsPeerReviewed | false |
IsScholarly | true |
Issue | 1 |
Keywords | 베이지안 예측모형 Bayesian prediction model 재현자료 microdata synthetic data 마이크로데이터 multiple imputation 다중대체 베이지안 붓스트랩 Bayesian bootstrap |
Language | Korean |
LinkModel | OpenURL |
MergedId | FETCHMERGED-LOGICAL-k1147-69f41e0f4ca4bb50d33239dfcc3264bd02d4a8683e68bfd14001f1b730f2fb8c3 |
Notes | The Korean Statistical Society KISTI1.1003/JNL.JAKO201912964890837 |
OpenAccessLink | http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO201912964890837&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01 |
PageCount | 15 |
ParticipantIDs | nrf_kci_oai_kci_go_kr_ARTI_4462803 kisti_ndsl_JAKO201912964890837 nurimedia_primary_NODE11400147 kiss_primary_3662785 |
PublicationCentury | 2000 |
PublicationDate | 2019 |
PublicationDateYYYYMMDD | 2019-01-01 |
PublicationDate_xml | – year: 2019 text: 2019 |
PublicationDecade | 2010 |
PublicationTitle | Ŭngyong tʻonggye yŏnʼgu |
PublicationTitleAlternate | 응용통계연구 |
PublicationYear | 2019 |
Publisher | 한국통계학회 |
Publisher_xml | – name: 한국통계학회 |
SSID | ssj0000612489 ssib053377530 ssib001150021 ssib044750966 ssib022238561 |
Score | 2.0496192 |
Snippet | 사회가 발전함에 따라 이용자의 다양한 분석 요구에 대응하기 위해 개인 단위로 구성된 마이크로데이터 제공이 증가했다. 나아가 센서스, 행정자료와 같은 전수자료를 마이크로데이터 형태로 제공받아 연구하고자 하는 요구 역시 커지고 있다. 정책결정, 학술목적 등을 위한 마이크로데이터 분석은... As society develops, the dissemination of microdata has increased to respond to diverse analytical needs of users. Analysis of microdata for policy making,... |
SourceID | nrf kisti nurimedia kiss |
SourceType | Open Website Open Access Repository Publisher |
StartPage | 83 |
SubjectTerms | Bayesian bootstrap Bayesian prediction model microdata multiple imputation synthetic data 다중대체 마이크로데이터 베이지안 붓스트랩 베이지안 예측모형 재현자료 통계학 |
Title | 다중대체와 재현자료 작성 |
URI | https://kiss.kstudy.com/ExternalLink/Ar?key=3662785 https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11400147 http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO201912964890837&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01 https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002444630 |
Volume | 32 |
hasFullText | 1 |
inHoldings | 1 |
isFullTextHit | |
isPrint | |
ispartofPNX | 응용통계연구, 2019, 32(1), , pp.83-97 |
link | http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwnR09b9NA9FTKQBcEFET5qCLgpsjF9t3Fd6PtuCqJ2iLRSt0sf0Yh4KI0GcKAOnSjA91g6UInxALiXyX8B947J04EHYDlfH6-j3fvnd69d753j5AnUiQsQ-8eWK2lwYWZGBET3HAkZ4mIIifXW9nbO42tfd46EAdLS18WTi0NB_FG8vZSv5L_4SrAgK_oJfsPnK0aBQDkgb-QAoch_Sse08Cj0qMup4GPqbI0xMfjCwDxbOrpT0oBpK5zAXV9GjSpklTyKUSZWM1lUHNWCFvysYRnLaqv1BdQv-iMMELRgPou9TzIdkZZfYTf5GahgX5nOOMkDeBdTTFyTaqE7sKhXvWjpIUSZwRJvd19Pa_nQRFdHHDbhDarBqpJ0i2Mlxmi8nzmcTTdv1iQj3qwgipfIwLoNxEiG5hHCNN0KMsonXGBDguyGkTRLBBiJcznm6XVpC0lcxku5_cFQzCBC0a75b7AY35qg9kbeKcrmy-P1aFFhnflS3GFXLUdx8Ljo9vvgrnqCZq1OVeF8B5Fc8GUBK3aAcvQrPb_ULXkOkJjNY7SpwtRevonQqAygEVxBDYUGhZdUIWKPmhQ14ohhoEAWbKgFu3dINen9kzNLSfnTbLUO7xFVtCEKW8AXyWPx-8vJhdn49Pjyfcfk0_Htcn5158fTybnH8afT-HlbHLy7TbZ3wz2_C1jGprD6IEB7RgNlXMrM3OeRDyOhZkyZjOV5kkC5gCPU9NOeSQbkmUNGecpWPGmlVsxLCe5nccyYXfIcnFYZHdJjaXCFjIXcYR_fCMRZ2kjTmInFdJOMiHWyCoOPHxT3r4STtmwRtY1IcIiPXoVttz2LpLLwlMEUgG9nDXyCCgU9pJuiFeo47NzGPb6IRiKz0KOPtkmg1YqAlY97Ow2A0ujzJ17l_d-n6xgd-Ve3AOyPOgPs4egnQ7idT0tfgFg73D0 |
linkProvider | ISSN International Centre |
openUrl | ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%EB%8B%A4%EC%A4%91%EB%8C%80%EC%B2%B4%EC%99%80+%EC%9E%AC%ED%98%84%EC%9E%90%EB%A3%8C+%EC%9E%91%EC%84%B1&rft.jtitle=%C5%ACngyong+t%CA%BBonggye+y%C5%8Fn%CA%BCgu&rft.au=%EA%B9%80%EC%A0%95%EC%97%B0&rft.au=Joungyoun+Kim&rft.au=%EB%B0%95%EB%AF%BC%EC%A0%95&rft.au=Min-jeong+Park&rft.date=2019&rft.pub=%ED%95%9C%EA%B5%AD%ED%86%B5%EA%B3%84%ED%95%99%ED%9A%8C&rft.issn=1225-066X&rft.volume=32&rft.issue=1&rft.spage=83&rft_id=info:doi/10.5351%2FKJAS.2019.32.1.083&rft.externalDocID=3662785 |
thumbnail_l | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=1225-066X&client=summon |
thumbnail_m | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=1225-066X&client=summon |
thumbnail_s | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=1225-066X&client=summon |