LEARNING DATA GENERATION DEVICE, ASSESSMENT DEVICE, LEARNING DATA GENERATION METHOD, ASSESSMENT METHOD, AND PROGRAM
Provided is a learning data generation device that is able to generate learning data used in learning of an assessment unit for assessing which portion of a document is unnatural. The learning data generation device includes: a main text extraction unit for extracting a portion of a document as a ma...
Saved in:
Main Authors | , , |
---|---|
Format | Patent |
Language | English French Japanese |
Published |
25.11.2021
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | Provided is a learning data generation device that is able to generate learning data used in learning of an assessment unit for assessing which portion of a document is unnatural. The learning data generation device includes: a main text extraction unit for extracting a portion of a document as a main text; an unnecessary phrase selection unit for selecting, as an unnecessary phrase, one phrase in the document that is not included in the main text; an unnecessary phrase insertion unit for generating a pseudo problem by inserting the unnecessary phrase into the main text; a first learning data generation unit for generating first learning data by setting the unnecessary phrase as an option, and attaching to the pseudo problem a first label signifying that the context of the passage encompassing the option is natural; and a second learning data generation unit for generating second learning data by setting one phrase from the main text as an option, and attaching to the pseudo problem a second label signifying that the context of the passage encompassing the option is unnatural.
L'invention concerne un dispositif de génération de données d'apprentissage qui est capable de générer des données d'apprentissage utilisées dans l'apprentissage d'une unité d'évaluation destinée à évaluer quelle portion d'un document est non naturelle. Le dispositif de génération de données d'apprentissage comprend : une unité d'extraction de texte principal destinée à extraire une portion d'un document en tant que texte principal ; une unité de sélection de phrase inutile destinée à sélectionner, en tant que phrase inutile, une phrase dans le document qui n'est pas incluse dans le texte principal ; une unité d'insertion de phrase inutile destinée à générer un pseudo-problème par insertion de la phrase inutile dans le texte principal ; une première unité de génération de données d'apprentissage destinée à générer des premières données d'apprentissage en définissant comme option la phrase inutile, et à attacher au pseudo-problème une première étiquette signifiant que le contexte du passage englobant l'option est naturel ; et une deuxième unité de génération de données d'apprentissage destinée à générer des deuxièmes données d'apprentissage en définissant comme option une phrase issue du texte principal, et à attacher au pseudo-problème une deuxième étiquette signifiant que le contexte du passage englobant l'option est non naturel.
文書のどの部分が不自然であるかを判定するための判定器の学習に用いる学習用データを生成することができる学習用データ生成装置を提供する。文書の一部を本文として抽出する本文抽出部と、文書のうち本文に含まれない一文を不要文として選択する不要文選択部と、本文に不要文を挿入して疑似問題を生成する不要文挿入部と、不要文を選択肢とし、選択肢の前後に存在する文章のつながりが自然であることを意味する第1のラベルを疑似問題に付して、第1の学習用データを生成する第1学習用データ生成部と、本文のうちの一文を選択肢とし、選択肢の前後に存在する文章のつながりが不自然であることを意味する第2のラベルを疑似問題に付して、第2の学習用データを生成する第2学習用データ生成部を含む。 |
---|---|
Bibliography: | Application Number: WO2020JP20334 |