예측 성능 향상을 위한 SHAP 기반의 기상 요소 및 대기오염물질 데이터 분석

예측 모델의 성능은 예측 대상과 관련이 없는 데이터를 이용하여 학습할 경우, 좋은 성능을 기대하기 어렵다. 따라서 예측 모델의 학습에 사용되는 데이터의 선정이 중요하다. 원활한 학습을 위해 일반적으로 상관분석을 통해 학습 데이터를 선정한다. 본 논문에서는 상관분석 결과와 SHAP을 이용하여 실제 예측 모델에 영향을 주는 변수들의 분석 결과를 비교하였다. 연구를 위한 데이터는 PM 2.5 의 예측을 목적으로 기상 데이터와 대기오염물질 데이터를 사용하였다. SHAP을 이용하여 분석하기 위한 예측 모델은 머신러닝 알고리즘 중 XGBoos...

Full description

Saved in:
Bibliographic Details
Published in한국항행학회논문지 Vol. 29; no. 1; pp. 107 - 112
Main Authors 정용진, Yong-jin Jung, 오창헌, Chang-heon Oh
Format Journal Article
LanguageKorean
Published 한국항행학회 28.02.2025
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:예측 모델의 성능은 예측 대상과 관련이 없는 데이터를 이용하여 학습할 경우, 좋은 성능을 기대하기 어렵다. 따라서 예측 모델의 학습에 사용되는 데이터의 선정이 중요하다. 원활한 학습을 위해 일반적으로 상관분석을 통해 학습 데이터를 선정한다. 본 논문에서는 상관분석 결과와 SHAP을 이용하여 실제 예측 모델에 영향을 주는 변수들의 분석 결과를 비교하였다. 연구를 위한 데이터는 PM 2.5 의 예측을 목적으로 기상 데이터와 대기오염물질 데이터를 사용하였다. SHAP을 이용하여 분석하기 위한 예측 모델은 머신러닝 알고리즘 중 XGBoost를 사용하였다. SHAP value를 이용하여 변수간 예측 값의 기여도를 측정하였다. 상관 분석 결과와 비교하였을 때, 상관 계수의 값이 0인 습도가 예측 모델의 예측 값에 대한 기여도가 두 번째로 높은 것을 확인하였다. SHAP value 기반의 산점도를 보았을 때, 습도의 값이 올라갈수록 예측 값에 대한 기여도가 올라가는 것을 확인하였으며, 학습 데이터 선정 과정에서 상관분석 결과가 유효하지 않은 변수가 있을 수 있음을 확인하였다. SHAP과 상관분석의 결과를 통해 도출된 변수를 이용하여 학습한 예측 모델의 성능 평가를 진행하였으며, 상관분석 결과만 학습한 예측 모델보다 약간의 성능 향상을 확인하였다. The performance of a prediction model is difficult to expect if it is trained using data unrelated to the prediction target. Therefore, selecting data for training prediction models is crucial. Generally, correlation analysis is used to select training data for effective learning. This paper compares the results of correlation analysis with SHAP to analyze the variables that influence the prediction model. The study uses weather data and air pollutant data to predict PM 2.5 . The prediction model for SHAP analysis employs the XGBoost algorithm. SHAP values measure the contribution of each variable to the prediction values. When compared with correlation analysis results, it was found that humidity, with a correlation coefficient of 0, had the second-highest contribution to the prediction values. The scatter plot based on SHAP values indicated that as humidity increased, its contribution to the prediction values also increased. This suggests that correlation analysis may not always be valid in the data selection process. The performance evaluation showed a slight improvement in the model trained with SHAP and correlation analysis results compared to the model trained only with correlation analysis results.
Bibliography:THE KOREA NAVIGATION INSTITUTE
KISTI1.1003/JNL.JAKO202510064802500
ISSN:1226-9026
2288-842X
DOI:10.12673/jant.2025.29.1.107