APPARATUS METHOD AND COMPUTER PROGRAM FOR GENERATING LEARNING DATA
An apparatus for generating training data, which can generate a large amount of high-quality semantic sentences using a small number of seed sentences, comprises: a sentence data collection unit which collects sentence data including at least one of a training sentence, an initial seed sentence, an...
Saved in:
Main Authors | , |
---|---|
Format | Patent |
Language | English Korean |
Published |
26.06.2023
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | An apparatus for generating training data, which can generate a large amount of high-quality semantic sentences using a small number of seed sentences, comprises: a sentence data collection unit which collects sentence data including at least one of a training sentence, an initial seed sentence, an initial semantic label associated with the initial seed sentence, and an initial paraphrase sentence; a first training unit which trains a first learning model based on the training sentence; a second training unit which analyzes relationships between the initial seed sentence, the initial semantic label, and the initial paraphrase sentence based on the first learning model to train a second learning model; an input unit which receives an input of an additional seed sentence and additional semantic label associated with the additional seed sentence; a sentence generation unit which generates an additional paraphrase sentence for the additional seed sentence and the additional semantic label based on the second learning model; and a training data generation unit which generates training data based on the generated additional paraphrase sentence.
학습 데이터를 생성하는 장치는 학습 문장, 초기 시드(Seed) 문장 및 상기 초기 시드 문장과 관련된 초기 시멘틱 라벨 및 초기 패러프레이즈 문장 중 적어도 하나를 포함하는 문장 데이터를 수집하는 문장 데이터 수집부, 상기 학습 문장에 기초하여 제 1 학습 모델을 학습시키는 제 1 학습부, 상기 제 1 학습 모델에 기초하여 상기 초기 시드 문장, 상기 초기 시멘틱 라벨 및 상기 초기 패러프레이즈 문장 간의 관계를 분석하여 제 2 학습 모델을 학습시키는 제 2 학습부, 추가 시드 문장 및 상기 추가 시드 문장과 관련된 추가 시멘틱 라벨을 입력받는 입력부, 상기 제 2 학습 모델에 기초하여 상기 추가 시드 문장 및 상기 추가 시멘틱 라벨에 대한 추가 패러프레이즈 문장을 생성하는 문장 생성부 및 상기 생성된 추가 패러프레이즈 문장에 기초하여 학습 데이터를 생성하는 학습 데이터 생성부를 포함한다. |
---|---|
Bibliography: | Application Number: KR20210181940 |