불균형 자료에 대한 분류분석

일반적인 2집단 분류(2-class classffication)의 경우, 두 집단의 비율이 크게 차이나지 않는 경우가 많다. 본 논문에서는 두 집단의 비율이 크게 차이나는 불균형 데이터(unbalanced data)의 분류 문제에 대해서 다루고자 한다. 불균형 데이터의 분류방법은 균형이 맞는 데이터(balanced data)의 경우보다 분류하기 어려운 경우가 많다. 이런 자료에서 보통의 분류모형을 적용하게 되면 많은 경우에 대부분의 관측치가 큰 집단으로 분류 되는 경우가 많은데 실질적인 어플리케이션에서는 이런 오분류가 손해가 더 큰...

Full description

Saved in:
Bibliographic Details
Published inŬngyong tʻonggye yŏnʼgu Vol. 28; no. 3; pp. 495 - 509
Main Authors 김동아, Dongah Kim, 강수연, Suyeon Kang, 송종우, Jongwoo Song
Format Journal Article
LanguageKorean
Published 한국통계학회 2015
Subjects
Online AccessGet full text
ISSN1225-066X
2383-5818

Cover

Loading…
More Information
Summary:일반적인 2집단 분류(2-class classffication)의 경우, 두 집단의 비율이 크게 차이나지 않는 경우가 많다. 본 논문에서는 두 집단의 비율이 크게 차이나는 불균형 데이터(unbalanced data)의 분류 문제에 대해서 다루고자 한다. 불균형 데이터의 분류방법은 균형이 맞는 데이터(balanced data)의 경우보다 분류하기 어려운 경우가 많다. 이런 자료에서 보통의 분류모형을 적용하게 되면 많은 경우에 대부분의 관측치가 큰 집단으로 분류 되는 경우가 많은데 실질적인 어플리케이션에서는 이런 오분류가 손해가 더 큰 경우가 대부분이다. 우리는 sampling 기법을 이용하여 다양한분류 방법론의 성능을 비교 분석 하였다. 또한 비대칭 손실(asymmetric loss)을 가정한 경우에 어떤 방법론이 가장작은 loss를 생성하는 지를 비교하였다. 성능 비교를 위해서는 오분류율(misclassffication rate), G-mean, ROC, 그리고 AUC(Area under the curve) 등을 이용하였다. We study a classi.cation problem of signi.cant di.erences in the proportion of two groups known as the unbalanced classi.cation problem. It is usually more di.cult to classify classes accurately in unbalanced data than balanced data. Most observations are likely to be classi.ed to the bigger group if we apply classi.cation methods to the unbalanced data because it can minimize the misclassi.cation loss. However, this smaller group is misclassi.ed as the larger group problem that can cause a bigger loss in most real applications. We compare several classi.cation methods for the unbalanced data using sampling techniques (up and down sampling). We also check the total loss of di.erent classi.cation methods when the asymmetric loss is applied to simulated and real data. We use the misclassi.cation rate, G-mean, ROC and AUC (area under the curve) for the performance comparison.
Bibliography:The Korean Statistical Society
KISTI1.1003/JNL.JAKO201521056137950
G704-000408.2015.28.3.010
ISSN:1225-066X
2383-5818