전장 분석을 위한 데이터 불균형을 처리하는 Q&A 관련성 식별 모델 연구
본 연구에서는 국방 도메인의 데이터를 기반으로 입력으로 받은 질문과 질문에 대한 답변의관련성을 측정하는 다층 퍼셉트론 기반의 관련성 식별 회귀-분류 모델을 제안한다. 먼저, 입력데이터를 효과적으로 처리하기 위한 임베딩 벡터 방법과 전처리 방안에 대해 수행한다. 전처리방안에서는 모델 입력 단계에서 특정 클래스의 데이터 불균형 문제가 발생할 경우, Re-Weight 샘플링 과정을 거치고 모순되는 데이터를 사전에 식별하여 제거하는 알고리즘을 추가한다. 또한, 관련성 식별 회귀-분류 모델은 회귀 모델의 태스크 형태를 가지지만 동시에 분류...
Saved in:
Published in | 한국컴퓨터정보학회논문지, 30(2) pp. 13 - 20 |
---|---|
Main Authors | , |
Format | Journal Article |
Language | Korean |
Published |
한국컴퓨터정보학회
01.02.2025
|
Subjects | |
Online Access | Get full text |
ISSN | 1598-849X 2383-9945 |
DOI | 10.9708/jksci.2025.30.02.013 |
Cover
Summary: | 본 연구에서는 국방 도메인의 데이터를 기반으로 입력으로 받은 질문과 질문에 대한 답변의관련성을 측정하는 다층 퍼셉트론 기반의 관련성 식별 회귀-분류 모델을 제안한다. 먼저, 입력데이터를 효과적으로 처리하기 위한 임베딩 벡터 방법과 전처리 방안에 대해 수행한다. 전처리방안에서는 모델 입력 단계에서 특정 클래스의 데이터 불균형 문제가 발생할 경우, Re-Weight 샘플링 과정을 거치고 모순되는 데이터를 사전에 식별하여 제거하는 알고리즘을 추가한다. 또한, 관련성 식별 회귀-분류 모델은 회귀 모델의 태스크 형태를 가지지만 동시에 분류 형태 태스크로변환하여 풀 수 있는 정규화(regularization) 항을 추가한 모델 구조를 제안한다. 실험은 사전에구축된 국방 도메인의 모의 데이터셋을 활용했으며 모델 추론 결과를 통해 모델의 성능을입증하였다. This study proposes a multi-layer perceptron based regression-classification model for identifying the relevance between a given input question and its corresponding answer using data from the defense domain. First, an embedding vector method and pre-processing method are introduced to effectively handle input data. In the pre-processing method, if a class imbalance problem arises during the model input stage, a re-weighted sampling process is applied. And an additional algorithm is incorporated to identify and filter out contradictory data in advance. Furthermore, the relevance identification regression-classification model adopts a regression task structure while simultaneously transforming it into a classification task by introducing a regularization term in the model architecture. The experiments were conducted using a pre-constructed simulated dataset from the defense domain, and the inference results demonstrate the effectiveness and performance of the proposed model. KCI Citation Count: 0 |
---|---|
ISSN: | 1598-849X 2383-9945 |
DOI: | 10.9708/jksci.2025.30.02.013 |