SNS에서 단어 간 유사도 기반 단어의 쾌-불쾌 지수 추정

감성 분석은 자연언어 처리 기술 및 텍스트마이닝 기술을 활용하여 텍스트 데이터로부터 주관적 정보를 인식 및 추출하는 기술로서, 분석하고자 하는 문서에 포함된 감성단어의 감성 지수를 이용하여 수행된다. 대다수의 감성 분석 연구에서는 감성단어를 긍정-부정의 두 가지로 분류하는 연구를 수행하였고, 최근에는 기쁨, 슬픔, 화남과 같이 다양한 감성으로 분류하는 연구들 역시 활발히 진행 중이다. 만약 감성 정도를 정량적으로 나타낼 수 있다면 보다 정밀한 감성 분석을 수행할 수 있겠지만, 단어의 감성 정도를 정량화하는 연구는 찾기 힘들다. 따라...

Full description

Saved in:
Bibliographic Details
Published in정보과학회 컴퓨팅의 실제 논문지, 20(3) pp. 159 - 164
Main Authors 이강복, 백종범, 이수원
Format Journal Article
LanguageKorean
Published 한국정보과학회 01.03.2014
Subjects
Online AccessGet full text
ISSN2383-6318
2383-6326

Cover

More Information
Summary:감성 분석은 자연언어 처리 기술 및 텍스트마이닝 기술을 활용하여 텍스트 데이터로부터 주관적 정보를 인식 및 추출하는 기술로서, 분석하고자 하는 문서에 포함된 감성단어의 감성 지수를 이용하여 수행된다. 대다수의 감성 분석 연구에서는 감성단어를 긍정-부정의 두 가지로 분류하는 연구를 수행하였고, 최근에는 기쁨, 슬픔, 화남과 같이 다양한 감성으로 분류하는 연구들 역시 활발히 진행 중이다. 만약 감성 정도를 정량적으로 나타낼 수 있다면 보다 정밀한 감성 분석을 수행할 수 있겠지만, 단어의 감성 정도를 정량화하는 연구는 찾기 힘들다. 따라서 본 논문에서는 단어 간 유사도를 기반으로 신규 단어의 쾌-불쾌 지수를 추정하는 방법론을 제안한다. 제안 시스템은 전처리, 자질어 선택, 동시 출현 단어와의 연관성 계산, 단어 간 유사도 계산의 단계를 거쳐 최종적으로 쾌-불쾌 지수 자동 추정을 수행한다. 실험 결과 기존 방법들에 비해 좋은 성능을 보였다. Sentiment analysis is a technology that extracts subjective information from text data by using natural language processing and text mining. In general, sentiment analysis is conducted based on sentiment of words in a document. Most researches have considered only positive/negative as sentiment classes, while recently many researches consider more diverse sentiments such as happy, sad and angry. However, a problem is how to estimate a sentiment index of a word. In this paper, we propose a method to estimate pleasure-displeasure index of words using similarities between words. In order to automatically estimate pleasure-displeasure index, we conducted our experiment based on following steps: 1) preprocessing 2) feature selection 3) cooccurrence-word-based association analysis 4) word similarity calculation. The experimental results show that the proposed method performs better comparing with existing methods. KCI Citation Count: 6
Bibliography:G704-A00398.2014.20.3.007
ISSN:2383-6318
2383-6326