낙동강 하류지역 Chl-a 추정을 위한 boosting 알고리즘 적용에 관한 비교 연구

목적:조류의 Chl-a를 추정하기 위해 낙동강 하류 지역의 수질 및 수량 데이터를 활용해 기계 학습 알고리즘을 사용하였다. 방법:처음에는 Chl-a와 수질 및 수량 데이터 간의 상관관계 분석을 실시하였으며, HC, CH의 수질 및 수량 데이터에 대해 중요도가 높은 10가지 요소를 추출하였다. 알고리즘을 통해 10가지 요인이 각 지점의 Chl-a 발생에 어떤 영향을 미치는지 추정하였다. 4가지 알고리즘인 의사 결정 트리, 랜덤 포레스트, 엘라스틱 넷, 그레디언트 부스팅 알고리즘을 Python으로 수행하였다. MSE, RMSE, R2값...

Full description

Saved in:
Bibliographic Details
Published inDaehan hwan'gyeong gonghag hoeji Vol. 43; no. 1; pp. 66 - 78
Main Authors 이상민(Sang-Min Lee), 김일규(Il-Kyu Kim)
Format Journal Article
LanguageKorean
Published 대한환경공학회 2021
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:목적:조류의 Chl-a를 추정하기 위해 낙동강 하류 지역의 수질 및 수량 데이터를 활용해 기계 학습 알고리즘을 사용하였다. 방법:처음에는 Chl-a와 수질 및 수량 데이터 간의 상관관계 분석을 실시하였으며, HC, CH의 수질 및 수량 데이터에 대해 중요도가 높은 10가지 요소를 추출하였다. 알고리즘을 통해 10가지 요인이 각 지점의 Chl-a 발생에 어떤 영향을 미치는지 추정하였다. 4가지 알고리즘인 의사 결정 트리, 랜덤 포레스트, 엘라스틱 넷, 그레디언트 부스팅 알고리즘을 Python으로 수행하였다. MSE, RMSE, R2값을 사용하여 우수한 알고리즘을 평가하였다. 결과 및 토의:그레디언트 부스팅은 HC지점에서 MSE 56.47, RMSE 7.51, R2 0.78을 나타내었으며, CH지점에서 MSE 63.82, RMSE 7.99, R2 0.76을 나타내었다. ROC곡선 및 AUC를 활용해 4가지 알고리즘에 대한 추정값도 평가되었다. 평가 결과 HC지점의 AUC값은 0.961, CH지점의 AUC값은 0.885으로 그레디언트 부스팅 알고리즘이 두 지점에서 다른 알고리즘에 비해 비교적 우수한 성능을 보여주었다. 결론:그레디언트 부스팅 알고리즘이 HC와 CH지점에 대해 우수한 결과를 보여주었다. Objectives:To estimate algae of Chlorophyll-a (Chl-a) with machine learning algorithms, water quality and quantity data of the downstream region of Nakdong River area were used. Methods:At first, the correlation analysis was studied about Chl-a, water quality and quantity data. We have extracted ten important factors for water quality and quantity data about HC (Hapcheon Changnyeong), CH (Changnyeong Haman). Algorithms estimated how ten factors affected Chl-a occurrence each sites. We used algorithms about decision tree, random forest, elastic net, gradient boosting with Python. Results and Discussion:The MSE (Mean of Square Error), RMSE (Root Mean Square Error), R2 (Coefficient of determination) values were used to evaluate excellent algorithms. The gradient boosting showed 56.47 of MSE, 7.51 of RMSE, 0.78 of R2 values for the HC site and 63.82 of MSE, 7.99 of RMSE, 0.76 of R2 values for the CH site. Estimation value for the four algorithms was also verified through the ROC (Receiver Operation Characteristic) curve and AUC (Area Under Curve). As a result of the verification, the AUC value was 0.961 at HC site and the AUC value was 0.885 at CH site. So the gradient boosting algorithm‘s ability to interpret seemed to be excellent. Conclusions:The gradient boosting algorithm showed excellent results for HC and CH sites. KCI Citation Count: 2
ISSN:1225-5025
2383-7810
DOI:10.4491/KSEE.2021.43.1.66