APPARATUS METHOD AND COMPUTER PROGRAM FOR GENERATING LEARNING DATA

An apparatus for generating training data, which can generate a large amount of high-quality semantic sentences using a small number of seed sentences, comprises: a sentence data collection unit which collects sentence data including at least one of a training sentence, an initial seed sentence, an...

Full description

Saved in:
Bibliographic Details
Main Authors SEO YOUNG KYUNG, CHOI YUN SU
Format Patent
LanguageEnglish
Korean
Published 26.06.2023
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:An apparatus for generating training data, which can generate a large amount of high-quality semantic sentences using a small number of seed sentences, comprises: a sentence data collection unit which collects sentence data including at least one of a training sentence, an initial seed sentence, an initial semantic label associated with the initial seed sentence, and an initial paraphrase sentence; a first training unit which trains a first learning model based on the training sentence; a second training unit which analyzes relationships between the initial seed sentence, the initial semantic label, and the initial paraphrase sentence based on the first learning model to train a second learning model; an input unit which receives an input of an additional seed sentence and additional semantic label associated with the additional seed sentence; a sentence generation unit which generates an additional paraphrase sentence for the additional seed sentence and the additional semantic label based on the second learning model; and a training data generation unit which generates training data based on the generated additional paraphrase sentence. 학습 데이터를 생성하는 장치는 학습 문장, 초기 시드(Seed) 문장 및 상기 초기 시드 문장과 관련된 초기 시멘틱 라벨 및 초기 패러프레이즈 문장 중 적어도 하나를 포함하는 문장 데이터를 수집하는 문장 데이터 수집부, 상기 학습 문장에 기초하여 제 1 학습 모델을 학습시키는 제 1 학습부, 상기 제 1 학습 모델에 기초하여 상기 초기 시드 문장, 상기 초기 시멘틱 라벨 및 상기 초기 패러프레이즈 문장 간의 관계를 분석하여 제 2 학습 모델을 학습시키는 제 2 학습부, 추가 시드 문장 및 상기 추가 시드 문장과 관련된 추가 시멘틱 라벨을 입력받는 입력부, 상기 제 2 학습 모델에 기초하여 상기 추가 시드 문장 및 상기 추가 시멘틱 라벨에 대한 추가 패러프레이즈 문장을 생성하는 문장 생성부 및 상기 생성된 추가 패러프레이즈 문장에 기초하여 학습 데이터를 생성하는 학습 데이터 생성부를 포함한다.
Bibliography:Application Number: KR20210181940