Generating method and system for triple data
The present invention relates to a method and a system to generate triple data. More specifically, the system comprises: a pattern generation unit receiving a knowledge-base and a corpus formed with triple data including a subject and an object in a natural language sentence, and generating a patter...
Saved in:
Main Authors | , , , |
---|---|
Format | Patent |
Language | English Korean |
Published |
03.08.2017
|
Subjects | |
Online Access | Get full text |
Cover
Summary: | The present invention relates to a method and a system to generate triple data. More specifically, the system comprises: a pattern generation unit receiving a knowledge-base and a corpus formed with triple data including a subject and an object in a natural language sentence, and generating a pattern based on the same; a pattern learning unit extracting a candidate pattern of each vocabulary representing a relation between the subject and the object from the generated patterns to learn the same; and a triple generation unit to generate new triple data based on the learned pattern. The pattern includes a subject postposition, an object proposition, and a predicate existing in the natural language sentence, or represents at least one vocabulary placed between the subject and the object. According to one embodiment of the present invention, data of a document represented in a natural language is easily and quickly structured in a semantic web field, thereby providing an effect capable of increasing the data processing speed of a computer. According to the other embodiment of the present invention, Korean data is able to structured, thereby increasing the satisfaction of Korean users.
본 발명은 트리플 데이터의 생성 방법 및 시스템에 관한 것으로, 보다 구체적으로는 자연어 문장 내 주어 및 목적어를 포함하는 트리플 데이터로 구성된 지식 베이스와 코퍼스(corpus)를 입력받고, 이에 기초하여 패턴을 생성하는 패턴생성부; 생성된 패턴 중 상기 주어와 목적어 간에 관계를 나타내는 어휘별 패턴 후보를 추출하여 학습하는 패턴학습부; 및 학습된 패턴에 기초하여 신규 트리플 데이터를 생성하는 트리플 생성부;를 포함하되, 상기 패턴은 상기 자연어 문장 내 존재하는 주어 조사, 목적어 조사 및 서술어를 포함하거나, 상기 자연어 문장 내 주어와 목적어 사이에 위치하는 적어도 하나의 어휘를 나타내는 것을 특징으로 한다. 본 발명의 일 측면에 따르면, 시맨틱 웹(semantic web) 분야에서 자연어로 표현된 문서의 데이터를 용이하고 신속하게 구조화하여, 컴퓨터의 데이터 처리 속도를 향상시킬 수 있는 효과가 있다. 본 발명의 다른 측면에 따르면, 한국어 데이터를 구조화시킬 수 있어, 한국어 사용자의 만족도를 향상시킬 수 있는 효과가 있다. |
---|---|
Bibliography: | Application Number: KR20160009168 |