KoBERT, KoGPT-2, KoBART 활용 및 하이퍼파라미터 최적화를 진행한 리뷰 감성분석 애플리케이션 구현
응용 프로그램 배포 플랫폼에서 제공되는 사용자 리뷰와 별점은 애플리케이션의 다운로드 횟수에 큰 영향을 미치기 때문에, 개발자들은 리뷰를 통해 사용자들의 피드백을 받아들이고 애플리케이션을 업데이트한다. 그러나 사용자가 원하는 것을 알기 위해서는 리뷰를 모두 읽어야만 하는 불편함이 있다. 이를 개선하기 위해 리뷰 데이터셋을 분석하고, 그 결과를 개발자에게 보여주려고 한다. 데이터셋을 정제한 후, 모델의 하이퍼파라미터 변경을 통한 파인튜닝을 진행하였다. 카카오톡과 인스타그램 리뷰를 크롤링해 초기 데이터셋을 생성하고, KoBERT와 KoG...
Saved in:
Published in | 디지털콘텐츠학회논문지 Vol. 24; no. 11; pp. 2831 - 2840 |
---|---|
Main Authors | , , , |
Format | Journal Article |
Language | Korean |
Published |
한국디지털콘텐츠학회
01.11.2023
|
Subjects | |
Online Access | Get full text |
ISSN | 1598-2009 2287-738X |
DOI | 10.9728/dcs.2023.24.11.2831 |
Cover
Summary: | 응용 프로그램 배포 플랫폼에서 제공되는 사용자 리뷰와 별점은 애플리케이션의 다운로드 횟수에 큰 영향을 미치기 때문에, 개발자들은 리뷰를 통해 사용자들의 피드백을 받아들이고 애플리케이션을 업데이트한다. 그러나 사용자가 원하는 것을 알기 위해서는 리뷰를 모두 읽어야만 하는 불편함이 있다. 이를 개선하기 위해 리뷰 데이터셋을 분석하고, 그 결과를 개발자에게 보여주려고 한다. 데이터셋을 정제한 후, 모델의 하이퍼파라미터 변경을 통한 파인튜닝을 진행하였다. 카카오톡과 인스타그램 리뷰를 크롤링해 초기 데이터셋을 생성하고, KoBERT와 KoGPT-2, KoBART 모델을 사용한 감성분석을 진행하였다. 정제한 데이터셋으로 각 모델 별 재학습을 진행해 보았고, 모델의 하이퍼파라미터를 변경해보며 학습을 진행하였다. 초기 데이터로 진행한 감성분석의 정확도가 약 74%가 나온 반면, 데이터 정제와 모델의 하이퍼파라미터 보정 후 정확도가 약 89%로 약 15% 증가함을 볼 수 있다. 그 후 감성분석 성능이 가장 높은 모델을 사용하여 리뷰를 선택해 참고할 수 있게 하고자 애플리케이션을 개발하였다. 해당 애플리케이션을 사용함으로써 개발자가 사용자의 만족도를 높이는 방향으로 업그레이드하도록 도움을 줄 것이라 기대한다. User reviews and ratings available on application distribution platforms have a significant impact on the number of downloads an application receives, so developers rely on reviews to get feedback from users and update their applications. However, it is inconvenient to read all the reviews to know what users want. To improve this, we want to analyze the review dataset and show the results to developers. After cleaning the dataset, we proceeded to fine-tune the model by changing the hyperparameters. We created an initial dataset by crawling KakaoTalk and Instagram reviews, and conducted sentiment analysis using KoBERT, KoGPT-2, and KoBART models. We retrained each model with the purified dataset and changed the hyperparameters of the models to improve the learning. While the accuracy of sentiment analysis with the initial data was about 74%, we can see that the accuracy increased by about 15% to about 89% after data purification and model hyperparameter correction. We then developed an application to select and reference reviews using the model with the highest sentiment analysis performance. By using this application, we hope to help developers upgrade to improve user satisfaction. KCI Citation Count: 0 |
---|---|
ISSN: | 1598-2009 2287-738X |
DOI: | 10.9728/dcs.2023.24.11.2831 |