전장 분석을 위한 데이터 불균형을 처리하는 Q&A 관련성 식별 모델 연구

본 연구에서는 국방 도메인의 데이터를 기반으로 입력으로 받은 질문과 질문에 대한 답변의관련성을 측정하는 다층 퍼셉트론 기반의 관련성 식별 회귀-분류 모델을 제안한다. 먼저, 입력데이터를 효과적으로 처리하기 위한 임베딩 벡터 방법과 전처리 방안에 대해 수행한다. 전처리방안에서는 모델 입력 단계에서 특정 클래스의 데이터 불균형 문제가 발생할 경우, Re-Weight 샘플링 과정을 거치고 모순되는 데이터를 사전에 식별하여 제거하는 알고리즘을 추가한다. 또한, 관련성 식별 회귀-분류 모델은 회귀 모델의 태스크 형태를 가지지만 동시에 분류...

Full description

Saved in:
Bibliographic Details
Published in한국컴퓨터정보학회논문지, 30(2) pp. 13 - 20
Main Authors 신유경, 진소연
Format Journal Article
LanguageKorean
Published 한국컴퓨터정보학회 01.02.2025
Subjects
Online AccessGet full text
ISSN1598-849X
2383-9945
DOI10.9708/jksci.2025.30.02.013

Cover

More Information
Summary:본 연구에서는 국방 도메인의 데이터를 기반으로 입력으로 받은 질문과 질문에 대한 답변의관련성을 측정하는 다층 퍼셉트론 기반의 관련성 식별 회귀-분류 모델을 제안한다. 먼저, 입력데이터를 효과적으로 처리하기 위한 임베딩 벡터 방법과 전처리 방안에 대해 수행한다. 전처리방안에서는 모델 입력 단계에서 특정 클래스의 데이터 불균형 문제가 발생할 경우, Re-Weight 샘플링 과정을 거치고 모순되는 데이터를 사전에 식별하여 제거하는 알고리즘을 추가한다. 또한, 관련성 식별 회귀-분류 모델은 회귀 모델의 태스크 형태를 가지지만 동시에 분류 형태 태스크로변환하여 풀 수 있는 정규화(regularization) 항을 추가한 모델 구조를 제안한다. 실험은 사전에구축된 국방 도메인의 모의 데이터셋을 활용했으며 모델 추론 결과를 통해 모델의 성능을입증하였다. This study proposes a multi-layer perceptron based regression-classification model for identifying the relevance between a given input question and its corresponding answer using data from the defense domain. First, an embedding vector method and pre-processing method are introduced to effectively handle input data. In the pre-processing method, if a class imbalance problem arises during the model input stage, a re-weighted sampling process is applied. And an additional algorithm is incorporated to identify and filter out contradictory data in advance. Furthermore, the relevance identification regression-classification model adopts a regression task structure while simultaneously transforming it into a classification task by introducing a regularization term in the model architecture. The experiments were conducted using a pre-constructed simulated dataset from the defense domain, and the inference results demonstrate the effectiveness and performance of the proposed model. KCI Citation Count: 0
ISSN:1598-849X
2383-9945
DOI:10.9708/jksci.2025.30.02.013