다중대체와 재현자료 작성

사회가 발전함에 따라 이용자의 다양한 분석 요구에 대응하기 위해 개인 단위로 구성된 마이크로데이터 제공이 증가했다. 나아가 센서스, 행정자료와 같은 전수자료를 마이크로데이터 형태로 제공받아 연구하고자 하는 요구 역시 커지고 있다. 정책결정, 학술목적 등을 위한 마이크로데이터 분석은 가치 창출 측면에서 대단히 바람직하다. 하지만 자료 유용성이 확보된 마이크로데이터 제공은 개인정보가 노출될 가능성이라는 위험을 가질 수 밖에 없다. 이에, 자료의 유용성을 확보하면서 개인정보보호를 보장할 수 있는 여러 방법들이 고려되어 왔다. 이러한 방법...

Full description

Saved in:
Bibliographic Details
Published inŬngyong tʻonggye yŏnʼgu Vol. 32; no. 1; pp. 83 - 97
Main Authors 김정연, Joungyoun Kim, 박민정, Min-jeong Park
Format Journal Article
LanguageKorean
Published 한국통계학회 2019
Subjects
Online AccessGet full text
ISSN1225-066X
2383-5818
DOI10.5351/KJAS.2019.32.1.083

Cover

Abstract 사회가 발전함에 따라 이용자의 다양한 분석 요구에 대응하기 위해 개인 단위로 구성된 마이크로데이터 제공이 증가했다. 나아가 센서스, 행정자료와 같은 전수자료를 마이크로데이터 형태로 제공받아 연구하고자 하는 요구 역시 커지고 있다. 정책결정, 학술목적 등을 위한 마이크로데이터 분석은 가치 창출 측면에서 대단히 바람직하다. 하지만 자료 유용성이 확보된 마이크로데이터 제공은 개인정보가 노출될 가능성이라는 위험을 가질 수 밖에 없다. 이에, 자료의 유용성을 확보하면서 개인정보보호를 보장할 수 있는 여러 방법들이 고려되어 왔다. 이러한 방법 중 하나로 재현자료(synthetic data)를 생성해서 활용하는 방법이 연구되어 왔다. 본 논문은 재현자료 생성과 관련된 방법론 및 주의사항을 소개하여, 재현자료의 이해를 도모하고자 한다. 이를 위해 재현자료 작성에 필수적인 다중대체, 베이지안 예측 모형 및 베이지안 붓스트랩 등의 개념들을 먼저 설명하고, 완전 재현자료 및 부분 재현자료에 대해 살펴본다. 특히, 재현자료 작성을 심도 깊이 이해하기 위해 순차회귀 다중대체(sequential regression multivariate imputation)를 이용해 경시적(longitudinal) 자료를 재현자료로 작성하는 구체적 사례를 살펴본다. As society develops, the dissemination of microdata has increased to respond to diverse analytical needs of users. Analysis of microdata for policy making, academic purposes, etc. is highly desirable in terms of value creation. However, the provision of microdata, whose usefulness is guaranteed, has a risk of exposure of personal information. Several methods have been considered to ensure the protection of personal information while ensuring the usefulness of the data. One of these methods has been studied to generate and utilize synthetic data. This paper aims to understand the synthetic data by exploring methodologies and precautions related to synthetic data. To this end, we first explain muptiple imputation, Bayesian predictive model, and Bayesian bootstrap, which are basic foundations for synthetic data. And then, we link these concepts to the construction of fully/partially synthetic data. To understand the creation of synthetic data, we review a real longitudinal synthetic data example which is based on sequential regression multivariate imputation.
AbstractList 사회가 발전함에 따라 이용자의 다양한 분석 요구에 대응하기 위해 개인 단위로 구성된 마이크로데이터 제공이 증가했다. 나아가 센서스, 행정자료와 같은 전수자료를 마이크로데이터 형태로 제공받아 연구하고자 하는 요구 역시 커지고 있다. 정책결정, 학술목적 등을 위한 마이크로데이터 분석은 가치 창출 측면에서 대단히 바람직하다. 하지만 자료 유용성이 확보된 마이크로데이터 제공은 개인정보가 노출될 가능성이라는 위험을 가질 수 밖에 없다. 이에, 자료의 유용성을 확보하면서 개인정보보호를 보장할 수 있는 여러 방법들이 고려되어 왔다. 이러한 방법 중 하나로 재현자료(synthetic data)를 생성해서 활용하는 방법이 연구되어 왔다. 본 논문은 재현자료 생성과 관련된 방법론 및 주의사항을 소개하여, 재현자료의 이해를 도모하고자 한다. 이를 위해 재현자료 작성에 필수적인 다중대체, 베이지안 예측 모형 및 베이지안 붓스트랩 등의 개념들을 먼저 설명하고, 완전 재현자료 및 부분 재현자료에 대해 살펴본다. 특히, 재현자료 작성을 심도 깊이 이해하기 위해 순차회귀 다중대체(sequential regression multivariate imputation)를 이용해 경시적(longitudinal) 자료를 재현자료로 작성하는 구체적 사례를 살펴본다. As society develops, the dissemination of microdata has increased to respond to diverse analytical needs of users. Analysis of microdata for policy making, academic purposes, etc. is highly desirable in terms of value creation. However, the provision of microdata, whose usefulness is guaranteed, has a risk of exposure of personal information. Several methods have been considered to ensure the protection of personal information while ensuring the usefulness of the data. One of these methods has been studied to generate and utilize synthetic data. This paper aims to understand the synthetic data by exploring methodologies and precautions related to synthetic data. To this end, we first explain muptiple imputation, Bayesian predictive model, and Bayesian bootstrap, which are basic foundations for synthetic data. And then, we link these concepts to the construction of fully/partially synthetic data. To understand the creation of synthetic data, we review a real longitudinal synthetic data example which is based on sequential regression multivariate imputation. KCI Citation Count: 1
As society develops, the dissemination of microdata has increased to respond to diverse analytical needs of users. Analysis of microdata for policy making, academic purposes, etc. is highly desirable in terms of value creation. However, the provision of microdata, whose usefulness is guaranteed, has a risk of exposure of personal information. Several methods have been considered to ensure the protection of personal information while ensuring the usefulness of the data. One of these methods has been studied to generate and utilize synthetic data. This paper aims to understand the synthetic data by exploring methodologies and precautions related to synthetic data. To this end, we first explain muptiple imputation, Bayesian predictive model, and Bayesian bootstrap, which are basic foundations for synthetic data. And then, we link these concepts to the construction of fully/partially synthetic data. To understand the creation of synthetic data, we review a real longitudinal synthetic data example which is based on sequential regression multivariate imputation. 사회가 발전함에 따라 이용자의 다양한 분석 요구에 대응하기 위해 개인 단위로 구성된 마이크로데이터 제공이 증가했다. 나아가 센서스, 행정자료와 같은 전수자료를 마이크로데이터 형태로 제공받아 연구하고자 하는 요구 역시 커지고 있다. 정책결정, 학술목적 등을 위한 마이크로데이터 분석은 가치 창출 측면에서 대단히 바람직하다. 하지만 자료 유용성이 확보된 마이크로데이터 제공은 개인정보가 노출될 가능성이라는 위험을 가질 수 밖에 없다. 이에, 자료의 유용성을 확보하면서 개인정보보호를 보장할 수 있는 여러 방법들이 고려되어 왔다. 이러한 방법 중 하나로 재현자료(synthetic data)를 생성해서 활용하는 방법이 연구되어 왔다. 본 논문은 재현자료 생성과 관련된 방법론 및 주의사항을 소개하여, 재현자료의 이해를 도모하고자 한다. 이를 위해 재현자료 작성에 필수적인 다중대체, 베이지안 예측 모형 및 베이지안 붓스트랩 등의 개념들을 먼저 설명하고, 완전 재현자료 및 부분 재현자료에 대해 살펴본다. 특히, 재현자료 작성을 심도 깊이 이해하기 위해 순차회귀 다중대체(sequential regression multivariate imputation)를 이용해 경시적(longitudinal) 자료를 재현자료로 작성하는 구체적 사례를 살펴본다.
사회가 발전함에 따라 이용자의 다양한 분석 요구에 대응하기 위해 개인 단위로 구성된 마이크로데이터 제공이 증가했다. 나아가 센서스, 행정자료와 같은 전수자료를 마이크로데이터 형태로 제공받아 연구하고자 하는 요구 역시 커지고 있다. 정책결정, 학술목적 등을 위한 마이크로데이터 분석은 가치 창출 측면에서 대단히 바람직하다. 하지만 자료 유용성이 확보된 마이크로데이터 제공은 개인정보가 노출될 가능성이라는 위험을 가질 수 밖에 없다. 이에, 자료의 유용성을 확보하면서 개인정보보호를 보장할 수 있는 여러 방법들이 고려되어 왔다. 이러한 방법 중 하나로 재현자료(synthetic data)를 생성해서 활용하는 방법이 연구되어 왔다. 본 논문은 재현자료 생성과 관련된 방법론 및 주의사항을 소개하여, 재현자료의 이해를 도모하고자 한다. 이를 위해 재현자료 작성에 필수적인 다중대체, 베이지안 예측 모형 및 베이지안 붓스트랩 등의 개념들을 먼저 설명하고, 완전 재현자료 및 부분 재현자료에 대해 살펴본다. 특히, 재현자료 작성을 심도 깊이 이해하기 위해 순차회귀 다중대체(sequential regression multivariate imputation)를 이용해 경시적(longitudinal) 자료를 재현자료로 작성하는 구체적 사례를 살펴본다. As society develops, the dissemination of microdata has increased to respond to diverse analytical needs of users. Analysis of microdata for policy making, academic purposes, etc. is highly desirable in terms of value creation. However, the provision of microdata, whose usefulness is guaranteed, has a risk of exposure of personal information. Several methods have been considered to ensure the protection of personal information while ensuring the usefulness of the data. One of these methods has been studied to generate and utilize synthetic data. This paper aims to understand the synthetic data by exploring methodologies and precautions related to synthetic data. To this end, we first explain muptiple imputation, Bayesian predictive model, and Bayesian bootstrap, which are basic foundations for synthetic data. And then, we link these concepts to the construction of fully/partially synthetic data. To understand the creation of synthetic data, we review a real longitudinal synthetic data example which is based on sequential regression multivariate imputation.
Author Min-jeong Park
김정연
Joungyoun Kim
박민정
Author_xml – sequence: 1
  fullname: 김정연
– sequence: 2
  fullname: Joungyoun Kim
– sequence: 3
  fullname: 박민정
– sequence: 4
  fullname: Min-jeong Park
BackLink https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002444630$$DAccess content in National Research Foundation of Korea (NRF)
BookMark eNpFkL1Ow0AQhE8oSISQF4AGCVFQ2Nzens_nMgoB8iMiQZDoTv47ZBwcZENBlyIdKUgHTRpS0oB4q5h3wCEobDO70qfRzmySUjJIQkK2gZoWWnDYbtUuTEbBMZGZYFKJa6TMUKJhSZAlUgbGLIMKcbVBqll2Q4sRwLh0ymRv_jTLZ5P5eJh_fuWvw918-v79Msqnz_O3cXFM8tHHFlnXbj8Lq39aIZfHjV791Oh0T5r1WseIAbhtCEdzCKnmvss9z6IBIkMn0L6PTHAvoCzgrhQSQyE9HQCnFDR4NlLNtCd9rJCDpW-SahX7kRq40a9eD1Scqtp5r6k4F0xSLNj9JRtH2X2kkiDrq1at3V3UAMwRRbiiB_ufSx7S6DYMIlfdFYubPqqz7lEDfr_gC25n5ZetEBSC2dLCH6Qvb4o
ContentType Journal Article
DBID HZB
Q5X
DBRKI
TDB
JDI
ACYCR
DEWEY 519.5
DOI 10.5351/KJAS.2019.32.1.083
DatabaseName KISS
Korean Studies Information Service System (KISS) B-Type
DBPIA - 디비피아
Korean Database (DBpia)
KoreaScience
Korean Citation Index
DatabaseTitleList


DeliveryMethod fulltext_linktorsrc
Discipline Statistics
Applied Sciences
Mathematics
DocumentTitleAlternate 다중대체와 재현자료 작성
Multiple imputation and synthetic data
DocumentTitle_FL Multiple imputation and synthetic data
EISSN 2383-5818
EndPage 97
ExternalDocumentID oai_kci_go_kr_ARTI_4462803
JAKO201912964890837
NODE11400147
3662785
GroupedDBID 9ZL
ALMA_UNASSIGNED_HOLDINGS
HZB
JDI
OK1
Q5X
DBRKI
TDB
ACYCR
ID FETCH-LOGICAL-k1147-69f41e0f4ca4bb50d33239dfcc3264bd02d4a8683e68bfd14001f1b730f2fb8c3
ISSN 1225-066X
IngestDate Sun Mar 09 07:53:02 EDT 2025
Fri Dec 22 12:02:26 EST 2023
Thu Feb 06 13:33:54 EST 2025
Wed Jan 24 03:12:01 EST 2024
IsDoiOpenAccess true
IsOpenAccess true
IsPeerReviewed false
IsScholarly true
Issue 1
Keywords 베이지안 예측모형
Bayesian prediction model
재현자료
microdata
synthetic data
마이크로데이터
multiple imputation
다중대체
베이지안 붓스트랩
Bayesian bootstrap
Language Korean
LinkModel OpenURL
MergedId FETCHMERGED-LOGICAL-k1147-69f41e0f4ca4bb50d33239dfcc3264bd02d4a8683e68bfd14001f1b730f2fb8c3
Notes The Korean Statistical Society
KISTI1.1003/JNL.JAKO201912964890837
OpenAccessLink http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO201912964890837&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01
PageCount 15
ParticipantIDs nrf_kci_oai_kci_go_kr_ARTI_4462803
kisti_ndsl_JAKO201912964890837
nurimedia_primary_NODE11400147
kiss_primary_3662785
PublicationCentury 2000
PublicationDate 2019
PublicationDateYYYYMMDD 2019-01-01
PublicationDate_xml – year: 2019
  text: 2019
PublicationDecade 2010
PublicationTitle Ŭngyong tʻonggye yŏnʼgu
PublicationTitleAlternate 응용통계연구
PublicationYear 2019
Publisher 한국통계학회
Publisher_xml – name: 한국통계학회
SSID ssj0000612489
ssib053377530
ssib001150021
ssib044750966
ssib022238561
Score 2.0496192
Snippet 사회가 발전함에 따라 이용자의 다양한 분석 요구에 대응하기 위해 개인 단위로 구성된 마이크로데이터 제공이 증가했다. 나아가 센서스, 행정자료와 같은 전수자료를 마이크로데이터 형태로 제공받아 연구하고자 하는 요구 역시 커지고 있다. 정책결정, 학술목적 등을 위한 마이크로데이터 분석은...
As society develops, the dissemination of microdata has increased to respond to diverse analytical needs of users. Analysis of microdata for policy making,...
SourceID nrf
kisti
nurimedia
kiss
SourceType Open Website
Open Access Repository
Publisher
StartPage 83
SubjectTerms Bayesian bootstrap
Bayesian prediction model
microdata
multiple imputation
synthetic data
다중대체
마이크로데이터
베이지안 붓스트랩
베이지안 예측모형
재현자료
통계학
Title 다중대체와 재현자료 작성
URI https://kiss.kstudy.com/ExternalLink/Ar?key=3662785
https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11400147
http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO201912964890837&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01
https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002444630
Volume 32
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
ispartofPNX 응용통계연구, 2019, 32(1), , pp.83-97
link http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwnR09b9NA9FTKQBcEFET5qCLgpsjF9t3Fd6PtuCqJ2iLRSt0sf0Yh4KI0GcKAOnSjA91g6UInxALiXyX8B947J04EHYDlfH6-j3fvnd69d753j5AnUiQsQ-8eWK2lwYWZGBET3HAkZ4mIIifXW9nbO42tfd46EAdLS18WTi0NB_FG8vZSv5L_4SrAgK_oJfsPnK0aBQDkgb-QAoch_Sse08Cj0qMup4GPqbI0xMfjCwDxbOrpT0oBpK5zAXV9GjSpklTyKUSZWM1lUHNWCFvysYRnLaqv1BdQv-iMMELRgPou9TzIdkZZfYTf5GahgX5nOOMkDeBdTTFyTaqE7sKhXvWjpIUSZwRJvd19Pa_nQRFdHHDbhDarBqpJ0i2Mlxmi8nzmcTTdv1iQj3qwgipfIwLoNxEiG5hHCNN0KMsonXGBDguyGkTRLBBiJcznm6XVpC0lcxku5_cFQzCBC0a75b7AY35qg9kbeKcrmy-P1aFFhnflS3GFXLUdx8Ljo9vvgrnqCZq1OVeF8B5Fc8GUBK3aAcvQrPb_ULXkOkJjNY7SpwtRevonQqAygEVxBDYUGhZdUIWKPmhQ14ohhoEAWbKgFu3dINen9kzNLSfnTbLUO7xFVtCEKW8AXyWPx-8vJhdn49Pjyfcfk0_Htcn5158fTybnH8afT-HlbHLy7TbZ3wz2_C1jGprD6IEB7RgNlXMrM3OeRDyOhZkyZjOV5kkC5gCPU9NOeSQbkmUNGecpWPGmlVsxLCe5nccyYXfIcnFYZHdJjaXCFjIXcYR_fCMRZ2kjTmInFdJOMiHWyCoOPHxT3r4STtmwRtY1IcIiPXoVttz2LpLLwlMEUgG9nDXyCCgU9pJuiFeo47NzGPb6IRiKz0KOPtkmg1YqAlY97Ow2A0ujzJ17l_d-n6xgd-Ve3AOyPOgPs4egnQ7idT0tfgFg73D0
linkProvider ISSN International Centre
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%EB%8B%A4%EC%A4%91%EB%8C%80%EC%B2%B4%EC%99%80+%EC%9E%AC%ED%98%84%EC%9E%90%EB%A3%8C+%EC%9E%91%EC%84%B1&rft.jtitle=%C5%ACngyong+t%CA%BBonggye+y%C5%8Fn%CA%BCgu&rft.au=%EA%B9%80%EC%A0%95%EC%97%B0&rft.au=Joungyoun+Kim&rft.au=%EB%B0%95%EB%AF%BC%EC%A0%95&rft.au=Min-jeong+Park&rft.date=2019&rft.pub=%ED%95%9C%EA%B5%AD%ED%86%B5%EA%B3%84%ED%95%99%ED%9A%8C&rft.issn=1225-066X&rft.volume=32&rft.issue=1&rft.spage=83&rft_id=info:doi/10.5351%2FKJAS.2019.32.1.083&rft.externalDocID=3662785
thumbnail_l http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=1225-066X&client=summon
thumbnail_m http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=1225-066X&client=summon
thumbnail_s http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=1225-066X&client=summon