다변량 지구과학 데이터와 가우시안 혼합 모델을 이용한 공간 분포 추정

Spatial estimation of geoscience data (geo-data) is challenging due to spatial heterogeneity, data scarcity, and high dimensionality. A novel spatial estimation method is needed to consider the characteristics of geo-data. In this study, we proposed the application of Gaussian Mixture Model (GMM) am...

Full description

Saved in:
Bibliographic Details
Published in자원환경지질 Vol. 55; no. 4; pp. 353 - 366
Main Authors 김호림, 유순영, 윤성택, 김경호, 이군택, 이정호, 허철호, 류동우
Format Journal Article
LanguageKorean
Published Korea Society Of Economic&Environmental Geology 01.08.2022
대한자원환경지질학회
Subjects
Online AccessGet full text
ISSN1225-7281
2288-7962
DOI10.9719/EEG.2022.55.4.353

Cover

Abstract Spatial estimation of geoscience data (geo-data) is challenging due to spatial heterogeneity, data scarcity, and high dimensionality. A novel spatial estimation method is needed to consider the characteristics of geo-data. In this study, we proposed the application of Gaussian Mixture Model (GMM) among machine learning algorithms with multivariate data for robust spatial predictions. The performance of the proposed approach was tested through soil chemical concentration data from a former smelting area. The concentrations of As and Pb determined by ex-situ ICP-AES were the primary variables to be interpolated, while the other metal concentrations by ICP-AES and all data determined by in-situ portable X-ray fluorescence (PXRF) were used as auxiliary variables in GMM and ordinary cokriging (OCK). Among the multidimensional auxiliary variables, important variables were selected using a variable selection method based on the random forest. The results of GMM with important multivariate auxiliary data decreased the root mean-squared error (RMSE) down to 0.11 for As and 0.33 for Pb and increased the correlations (r) up to 0.31 for As and 0.46 for Pb compared to those from ordinary kriging and OCK using univariate or bivariate data. The use of GMM improved the performance of spatial interpretation of anthropogenic metals in soil. The multivariate spatial approach can be applied to understand complex and heterogeneous geological and geochemical features. 지구과학 데이터(지오데이터)의 공간 이질성, 희소성 및 고차원성으로 인해 공간 분포 추정에 어려움이 있다. 따라서 지구과학의 많은 응용 분야에서 지오데이터의 고유 특성을 고려할 수 있는 공간 추정 기법이 필요하다. 본 연구에서는 기계 학습 알고리즘 중 하나인 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 이용하여 공간 예측 방법을 제공하고자 하였다. 제안된 기법의 성능을 검증하기 위해, 옛 제련소 부지에서 휴대용 X선 형광분석기(PXRF) 및 유도결합플라즈마-원자방출분광법(ICP-AES)을 이용하여 분석된 토양 농도 자료를 활용하였다. ICP-AES를 이용해 분석된 As와 Pb를 주변수로 하고, 나머지 자료는 보조변수로 활용하였다. 다차원의 보조변수 중 중요 변수를 선별하기 위해 랜덤포레스트 기반의 변수선택법을 적용하였다. ICP-AES 및 PXRF를 통해 구축된 다변량 데이터를 사용한 GMM의 결과를 단변량 및 이변량 데이터를 사용한 정규 크리깅(Ordinary Kriging; OK) 및 정규 공동크리깅(Ordinary Co-Kriging; OCK)의 결과와 비교하였다. GMM의 결과는 OK 및 OCK의 결과보다 낮은 평균 제곱근 편차(RMSE; 비소는 최대 0.11 및 납은 0.33까지 향상)와 높은 상관관계(r; 비소는 최대 0.31 및 납은 0.46까지 향상)를 제공하였다. 이는 GMM을 사용할 경우 토양 오염의 범위 해석의 성능을 향상시킬 수 있음을 지시한다. 본 연구는 다 변량 공간추정 접근법이 복잡하고 이질적인 지질 및 지구 화학자료의 특징을 이해하는 데 효과적으로 적용될 수 있음을 증명하였다.
AbstractList 지구과학 데이터(지오데이터)의 공간 이질성, 희소성 및 고차원성으로 인해 공간 분포 추정에 어려움이 있다. 따라서 지구과학의 많은 응용 분야에서 지오데이터의 고유 특성을 고려할 수 있는 공간 추정 기법이 필요하다. 본 연구에서는 기계 학습 알고리즘 중 하나인 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 이용하여 공간 예측 방법을 제공하고자 하였다. 제안된 기법의 성능을 검증하기 위해, 옛 제련소 부지에서 휴대용 X선 형광분석기(PXRF) 및 유도결합플라즈마-원자방출분광법(ICPAES)을 이용하여 분석된 토양 농도 자료를 활용하였다. ICP-AES를 이용해 분석된 As와 Pb를 주변수로 하고, 나머지 자료는 보조변수로 활용하였다. 다차원의 보조변수 중 중요 변수를 선별하기 위해 랜덤포레스트 기반의 변수선택법을 적용하였다. ICPAES 및 PXRF를 통해 구축된 다변량 데이터를 사용한 GMM의 결과를 단변량 및 이변량 데이터를 사용한 정규 크리깅(Ordinary Kriging; OK) 및 정규 공동크리깅(Ordinary Co-Kriging; OCK)의 결과와 비교하였다. GMM의 결과는 OK 및 OCK의 결과보다 낮은 평균 제곱근 편차(RMSE; 비소는 최대 0.11 및 납은 0.33까지 향상)와 높은 상관관계(r; 비소는 최대 0.31 및 납은 0.46까지 향상)를 제공하였다. 이는 GMM을 사용할 경우 토양 오염의 범위 해석의 성능을 향상시킬 수 있음을 지시한다. 본 연구는 다변량 공간추정 접근법이 복잡하고 이질적인 지질 및 지구 화학 자료의 특징을 이해하는 데 효과적으로 적용될 수 있음을 증명하였다. Spatial estimation of geoscience data (geo-data) is challenging due to spatial heterogeneity, data scarcity, and high dimensionality. A novel spatial estimation method is needed to consider the characteristics of geo-data. In this study, we proposed the application of Gaussian Mixture Model (GMM) among machine learning algorithms with multivariate data for robust spatial predictions. The performance of the proposed approach was tested through soil chemical concentration data from a former smelting area. The concentrations of As and Pb determined by ex-situ ICP-AES were the primary variables to be interpolated, while the other metal concentrations by ICP-AES and all data determined by in-situ portable X-ray fluorescence (PXRF) were used as auxiliary variables in GMM and ordinary cokriging (OCK). Among the multidimensional auxiliary variables, important variables were selected using a variable selection method based on the random forest. The results of GMM with important multivariate auxiliary data decreased the root mean-squared error (RMSE) down to 0.11 for As and 0.33 for Pb and increased the correlations (r) up to 0.31 for As and 0.46 for Pb compared to those from ordinary kriging and OCK using univariate or bivariate data. The use of GMM improved the performance of spatial interpretation of anthropogenic metals in soil. The multivariate spatial approach can be applied to understand complex and heterogeneous geological and geochemical features. KCI Citation Count: 1
Spatial estimation of geoscience data (geo-data) is challenging due to spatial heterogeneity, data scarcity, and high dimensionality. A novel spatial estimation method is needed to consider the characteristics of geo-data. In this study, we proposed the application of Gaussian Mixture Model (GMM) among machine learning algorithms with multivariate data for robust spatial predictions. The performance of the proposed approach was tested through soil chemical concentration data from a former smelting area. The concentrations of As and Pb determined by ex-situ ICP-AES were the primary variables to be interpolated, while the other metal concentrations by ICP-AES and all data determined by in-situ portable X-ray fluorescence (PXRF) were used as auxiliary variables in GMM and ordinary cokriging (OCK). Among the multidimensional auxiliary variables, important variables were selected using a variable selection method based on the random forest. The results of GMM with important multivariate auxiliary data decreased the root mean-squared error (RMSE) down to 0.11 for As and 0.33 for Pb and increased the correlations (r) up to 0.31 for As and 0.46 for Pb compared to those from ordinary kriging and OCK using univariate or bivariate data. The use of GMM improved the performance of spatial interpretation of anthropogenic metals in soil. The multivariate spatial approach can be applied to understand complex and heterogeneous geological and geochemical features. 지구과학 데이터(지오데이터)의 공간 이질성, 희소성 및 고차원성으로 인해 공간 분포 추정에 어려움이 있다. 따라서 지구과학의 많은 응용 분야에서 지오데이터의 고유 특성을 고려할 수 있는 공간 추정 기법이 필요하다. 본 연구에서는 기계 학습 알고리즘 중 하나인 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 이용하여 공간 예측 방법을 제공하고자 하였다. 제안된 기법의 성능을 검증하기 위해, 옛 제련소 부지에서 휴대용 X선 형광분석기(PXRF) 및 유도결합플라즈마-원자방출분광법(ICP-AES)을 이용하여 분석된 토양 농도 자료를 활용하였다. ICP-AES를 이용해 분석된 As와 Pb를 주변수로 하고, 나머지 자료는 보조변수로 활용하였다. 다차원의 보조변수 중 중요 변수를 선별하기 위해 랜덤포레스트 기반의 변수선택법을 적용하였다. ICP-AES 및 PXRF를 통해 구축된 다변량 데이터를 사용한 GMM의 결과를 단변량 및 이변량 데이터를 사용한 정규 크리깅(Ordinary Kriging; OK) 및 정규 공동크리깅(Ordinary Co-Kriging; OCK)의 결과와 비교하였다. GMM의 결과는 OK 및 OCK의 결과보다 낮은 평균 제곱근 편차(RMSE; 비소는 최대 0.11 및 납은 0.33까지 향상)와 높은 상관관계(r; 비소는 최대 0.31 및 납은 0.46까지 향상)를 제공하였다. 이는 GMM을 사용할 경우 토양 오염의 범위 해석의 성능을 향상시킬 수 있음을 지시한다. 본 연구는 다 변량 공간추정 접근법이 복잡하고 이질적인 지질 및 지구 화학자료의 특징을 이해하는 데 효과적으로 적용될 수 있음을 증명하였다.
Author 류동우
이정호
윤성택
이군택
유순영
김경호
김호림
허철호
Author_xml – sequence: 1
  fullname: 김호림
– sequence: 2
  fullname: 유순영
– sequence: 3
  fullname: 윤성택
– sequence: 4
  fullname: 김경호
– sequence: 5
  fullname: 이군택
– sequence: 6
  fullname: 이정호
– sequence: 7
  fullname: 허철호
– sequence: 8
  fullname: 류동우
BackLink https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002868763$$DAccess content in National Research Foundation of Korea (NRF)
BookMark eNpN0D9Lw0AABfBDFKzaD-B2i4uQeP8vNxap_6EgOp9JmkiIJNB0cevQQRFxsaCi6CBoxSFQFQc_UXL5Drbq4PLe8uMNbw5MJ2kSALCIka0kVivN5rpNECE25zazKadToEaI41hSCTINapgQbkni4FlQz7LIQ8hhHHOqauCgPHssR73y_hSap17x_lqMvqrBNSzPc3P3VvVzc92DRd4zN7k5uzWDE1hdjcEQli_P5fmnuevDsTM3w2pwC4vRe5H3YfnRry5eofm4NA-DBTATukdZUP_rebC_1txb3bB2Wuubq40dK8aCdy0sGGPIc0MVEhV6SgoVEMHHEQTcw5S1OfFcFLo-YciXIRWS-W2BiAhc5oeKzoPl392kE-rYj3TqRj99mOq4oxu7e5saI0SpQniMl35xHGXdSCft7EhvNbZbkxMJlxxLqjBD_9xx6qXaS9PYD5Ju0NEMTcaEI5l0HPoNhG-Otw
ContentType Journal Article
Copyright COPYRIGHT(C) KYOBO BOOK CENTRE ALL RIGHTS RESERVED
Copyright_xml – notice: COPYRIGHT(C) KYOBO BOOK CENTRE ALL RIGHTS RESERVED
DBID P5Y
SSSTE
JDI
ACYCR
DEWEY 553
DOI 10.9719/EEG.2022.55.4.353
DatabaseName Scholar (EKS)
Scholar(스콜라)
KoreaScience
Korean Citation Index
DatabaseTitleList

DeliveryMethod fulltext_linktorsrc
Discipline Geology
DocumentTitleAlternate Estimation of Spatial Distribution Using the Gaussian Mixture Model with Multivariate Geoscience Data
EISSN 2288-7962
EndPage 366
ExternalDocumentID oai_kci_go_kr_ARTI_10033901
JAKO202225751739140
4010036874788
GroupedDBID P5Y
SSSTE
.UV
JDI
ACYCR
KVFHK
ID FETCH-LOGICAL-k165t-164440baf9f29fb9769e2659e2ee5b134d52ba0fac240c7f3674cd6026ea4cf93
ISSN 1225-7281
IngestDate Tue Nov 21 21:33:02 EST 2023
Fri Dec 22 11:58:40 EST 2023
Tue Feb 18 15:20:46 EST 2025
IsDoiOpenAccess true
IsOpenAccess true
IsPeerReviewed false
IsScholarly true
Issue 4
Keywords 기계학습
토양오염
multivariate
가우시안 혼합모형
다변량
Gaussian Mixture Model (GMM)
soil contamination
지구과학데이터(지오데이터)
machine learning
geoscience data (geo-data)
Language Korean
LinkModel OpenURL
MergedId FETCHMERGED-LOGICAL-k165t-164440baf9f29fb9769e2659e2ee5b134d52ba0fac240c7f3674cd6026ea4cf93
Notes KISTI1.1003/JNL.JAKO202225751739140
OpenAccessLink http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO202225751739140&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01
PageCount 14
ParticipantIDs nrf_kci_oai_kci_go_kr_ARTI_10033901
kisti_ndsl_JAKO202225751739140
kyobo_bookcenter_4010036874788
PublicationCentury 2000
PublicationDate 2022-08-01
PublicationDateYYYYMMDD 2022-08-01
PublicationDate_xml – month: 08
  year: 2022
  text: 2022-08-01
  day: 01
PublicationDecade 2020
PublicationTitle 자원환경지질
PublicationTitleAlternate Economic and environmental geology
PublicationYear 2022
Publisher Korea Society Of Economic&Environmental Geology
대한자원환경지질학회
Publisher_xml – name: Korea Society Of Economic&Environmental Geology
– name: 대한자원환경지질학회
SSID ssib008451539
ssib001195850
ssib051116406
ssib036278822
Score 2.20134
Snippet Spatial estimation of geoscience data (geo-data) is challenging due to spatial heterogeneity, data scarcity, and high dimensionality. A novel spatial...
지구과학 데이터(지오데이터)의 공간 이질성, 희소성 및 고차원성으로 인해 공간 분포 추정에 어려움이 있다. 따라서 지구과학의 많은 응용 분야에서 지오데이터의 고유 특성을 고려할 수 있는 공간 추정 기법이 필요하다. 본 연구에서는 기계 학습 알고리즘 중 하나인 가우시안 혼합...
SourceID nrf
kisti
kyobo
SourceType Open Website
Open Access Repository
Publisher
StartPage 353
SubjectTerms 지질학
TableOfContents 1. 서 론 2. 연구 지역과 시료 채취 및 분석 방법 3. 기계학습 방법론 및 통계 적용 절차 4. 결과 및 토의 5. 결 론 사 사 References
Title 다변량 지구과학 데이터와 가우시안 혼합 모델을 이용한 공간 분포 추정
URI https://scholar.kyobobook.co.kr/article/detail/4010036874788
http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO202225751739140&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01
https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002868763
Volume 55
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
ispartofPNX 자원환경지질, 2022, 55(4), 275, pp.353-366
link http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwnR1Na9RQMLQVwYv4ifWjBPSdll3z8ZK8d0x2t62V6qWF3mKSTaSs7MK6PdSD7GEFpRQvLtjSogdBKz0s1BYP_qLd7H9w5iXZjbXgxyUZJpP5elneTHYyI0n3OBb5-XpQ5JrP8ZMcveiZoVoMuV7zTOpFSoCvBpYfmYurdGnNWJuafpWrWtpo-6XgxZnflfzPqgIO1hW_kv2HlR0zBQTAsL5whBWG41-tMak6hDnEpgg4OlYtAMDnCYNUv1omtiVQNnEMYpcFoBMHgArhBuFIBAwqxFGQmgNA8RqjGYbD_QVxnyI4AcpOr4FcXhYYgzBWEDzZhLmdMLdtYrNMCkulMFrIyRM8bZ4pVS5kehqZYCpYOSYqhurNgzGCA6C44GArJBmimcXZgm2V8ERnRwAVtAd0RK4acSo5DyXAuKpXkHBxJbFKmGCbxClPSMpov534gmW-YISpp0mEhuhTVWivg-FnCBorlUrMv46BTD4rBsx2EE3MB06FhQKnafDgWvzXbSfpTpz-vGhuD9GT7slpOKInQ2lO73TcUrFRbLW6UEItSoZRoqXxnfmu4qd2-3EN5pL98LEm0n3LUC2dQ6Y9LZ3TLEtUOyy_rE6iamxIlPvzm1EIgifNZCEEsliuCySE8JCDi6m2Y2ck9QSo9P3fVIa0EHOldTxvNv0mRHmNVpSL8lYuSRfT9Ey2k9_aZWmq3rwinV8Q4683r0pPhlufhked4Yc3cvy5Mzg-HBz9GPV25OF2P97_Nur2452OPOh34t1-vLUX917Lo_dAcCAPv34Zbn-P97sy0MW7B6Penjw4Oh70u_LwpDt6eyjHJ-_ij71r0up8daW8WExnlBTrqmm0i2AppYrvRTzSeORDcM9DzTTgEIaGr-q0Zmi-p0ReAKFzYEW6adGghnPfQo8GEdevSzONZiO8IclBGEHypHFfpx7EzTUGmVZoKmHAqKLzmjUrzQk_uY3a82fuGcuHBOhAF_NzrO0OWy5VVGw5xcSYjFnpLnjWrQfrLnaVx_PTpltvuZA7P8Du5Tq-Ab35Jzm3pAuTJ_-2NNNubYR3IDRv-3PiwfkJbNW4dg
linkProvider ISSN International Centre
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%EB%8B%A4%EB%B3%80%EB%9F%89+%EC%A7%80%EA%B5%AC%EA%B3%BC%ED%95%99+%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%99%80+%EA%B0%80%EC%9A%B0%EC%8B%9C%EC%95%88+%ED%98%BC%ED%95%A9+%EB%AA%A8%EB%8D%B8%EC%9D%84+%EC%9D%B4%EC%9A%A9%ED%95%9C+%EA%B3%B5%EA%B0%84+%EB%B6%84%ED%8F%AC+%EC%B6%94%EC%A0%95&rft.jtitle=%EC%9E%90%EC%9B%90%ED%99%98%EA%B2%BD%EC%A7%80%EC%A7%88&rft.au=%EA%B9%80%ED%98%B8%EB%A6%BC&rft.au=%EC%9C%A0%EC%88%9C%EC%98%81&rft.au=%EC%9C%A4%EC%84%B1%ED%83%9D&rft.au=%EA%B9%80%EA%B2%BD%ED%98%B8&rft.date=2022-08-01&rft.issn=1225-7281&rft.eissn=2288-7962&rft.volume=55&rft.issue=4&rft.spage=353&rft.epage=366&rft_id=info:doi/10.9719%2FEEG.2022.55.4.353&rft.externalDBID=n%2Fa&rft.externalDocID=JAKO202225751739140
thumbnail_l http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=1225-7281&client=summon
thumbnail_m http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=1225-7281&client=summon
thumbnail_s http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=1225-7281&client=summon