앙상블 기법을 활용한 논문 주제 분류 모델

국내에서는 과학, 의학, 공학 등 다양한 학문 분야에서 많은 연구자들이 논문을 작성하고 있으며, 이러한 논문들은 DBPIA, KISS, RISS와 같은 학술지 논문 검색 플랫폼을 통해 널리 참조 및 인용되고 있다. 하지만, 현재의 논문 분류 체계는 저자가 선택한 주관적인 키워드에 의존하는 방식으로 운영되어 일관성과 표준화가 부족한 문제를 가지고 있다. 이러한 문제를 해결하기 위해, 본 논문에서는 KISTI(한국과학기술정보연구원)에서 제공하는 논문 데이터셋을 활용하고, 2018년 개정된 국가과학기술표준분류체계를 기반으로 하여 논문을...

Full description

Saved in:
Bibliographic Details
Published in한국콘텐츠학회 논문지, 24(6) Vol. 24; no. 6; pp. 31 - 42
Main Authors 이수민(Su-Min Lee), 박민수(Min-Soo Park), 유재수(Jae-Soo Yoo), 최도진(Do-Jin Choi)
Format Journal Article
LanguageKorean
Published 한국콘텐츠학회 01.06.2024
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:국내에서는 과학, 의학, 공학 등 다양한 학문 분야에서 많은 연구자들이 논문을 작성하고 있으며, 이러한 논문들은 DBPIA, KISS, RISS와 같은 학술지 논문 검색 플랫폼을 통해 널리 참조 및 인용되고 있다. 하지만, 현재의 논문 분류 체계는 저자가 선택한 주관적인 키워드에 의존하는 방식으로 운영되어 일관성과 표준화가 부족한 문제를 가지고 있다. 이러한 문제를 해결하기 위해, 본 논문에서는 KISTI(한국과학기술정보연구원)에서 제공하는 논문 데이터셋을 활용하고, 2018년 개정된 국가과학기술표준분류체계를 기반으로 하여 논문을 대분류 코드로 자동 분류하는 새로운 모델을 제안한다. 이 모델은 NTIS의 Open API를 이용한 데이터 증강과 XLM-RoBERTa 언어 모델을 활용하여 국내외 다양한 데이터에 대한 언어 이해력을 강화하였다. 또한, GRU(Gated Recurrent Unit)와 앙상블 기법을 사용한 계층적 접근 방식을 통해 논문의 초기 분야를 예측한 후, 이를 바탕으로 해당 분야의 대분류를 추가로 예측하는 방식으로 설계되었다. 결론적으로, 제안하는 모델은 논문의 주제를 더 정확하게 분류하고, 연구자들이 필요한 정보를 더 효과적으로 찾고 활용할 수 있도록 지원한다. 제안 모델의 우수성을 입증하기 위해 다양한 성능 평가를 수행하였으며, 그 결과는 기존 방식에 비해 정확도에서 상당한 개선을 보여준다. In South Korea, researchers across fields such as science, medicine, and engineering produce numerous papers that are widely referenced through platforms like DBPIA, KISS, and RISS. However, the current classification system relies on subjective keywords chosen by authors, leading to consistency and standardization issues. To address this, a new model is proposed using a dataset from the Korea Institute of Science and Technology Information (KISTI) and the revised 2018 National Science and Technology Classification System to automatically categorize papers into major categories. This model enhances linguistic comprehension for domestic and international data using data augmentation from NTIS's Open API and the XLM-RoBERTa language model. It employs a hierarchical approach with GRU (Gated Recurrent Unit) and ensemble techniques to first predict the initial field of the paper, and then further predict its major category. The proposed model more accurately classifies paper subjects, aiding researchers in finding and utilizing information effectively. Performance evaluations demonstrate significant improvements over existing methods. KCI Citation Count: 0
ISSN:1598-4877
2508-6723
DOI:10.5392/JKCA.2024.24.06.031