Generating method and system for triple data

The present invention relates to a method and a system to generate triple data. More specifically, the system comprises: a pattern generation unit receiving a knowledge-base and a corpus formed with triple data including a subject and an object in a natural language sentence, and generating a patter...

Full description

Saved in:
Bibliographic Details
Main Authors CHOI, SU JEONG, YOON, HEE GEUN, PARK, SE YOUNG, PARK, SEONG BAE
Format Patent
LanguageEnglish
Korean
Published 03.08.2017
Subjects
Online AccessGet full text

Cover

More Information
Summary:The present invention relates to a method and a system to generate triple data. More specifically, the system comprises: a pattern generation unit receiving a knowledge-base and a corpus formed with triple data including a subject and an object in a natural language sentence, and generating a pattern based on the same; a pattern learning unit extracting a candidate pattern of each vocabulary representing a relation between the subject and the object from the generated patterns to learn the same; and a triple generation unit to generate new triple data based on the learned pattern. The pattern includes a subject postposition, an object proposition, and a predicate existing in the natural language sentence, or represents at least one vocabulary placed between the subject and the object. According to one embodiment of the present invention, data of a document represented in a natural language is easily and quickly structured in a semantic web field, thereby providing an effect capable of increasing the data processing speed of a computer. According to the other embodiment of the present invention, Korean data is able to structured, thereby increasing the satisfaction of Korean users. 본 발명은 트리플 데이터의 생성 방법 및 시스템에 관한 것으로, 보다 구체적으로는 자연어 문장 내 주어 및 목적어를 포함하는 트리플 데이터로 구성된 지식 베이스와 코퍼스(corpus)를 입력받고, 이에 기초하여 패턴을 생성하는 패턴생성부; 생성된 패턴 중 상기 주어와 목적어 간에 관계를 나타내는 어휘별 패턴 후보를 추출하여 학습하는 패턴학습부; 및 학습된 패턴에 기초하여 신규 트리플 데이터를 생성하는 트리플 생성부;를 포함하되, 상기 패턴은 상기 자연어 문장 내 존재하는 주어 조사, 목적어 조사 및 서술어를 포함하거나, 상기 자연어 문장 내 주어와 목적어 사이에 위치하는 적어도 하나의 어휘를 나타내는 것을 특징으로 한다. 본 발명의 일 측면에 따르면, 시맨틱 웹(semantic web) 분야에서 자연어로 표현된 문서의 데이터를 용이하고 신속하게 구조화하여, 컴퓨터의 데이터 처리 속도를 향상시킬 수 있는 효과가 있다. 본 발명의 다른 측면에 따르면, 한국어 데이터를 구조화시킬 수 있어, 한국어 사용자의 만족도를 향상시킬 수 있는 효과가 있다.
Bibliography:Application Number: KR20160009168