MULTILINGUAL GRAMMATICAL ERROR CORRECTION

A method (400) of training a text-generating model (122) for grammatical error correction (GEC) includes obtaining a multilingual set (210) of text samples (212). Each text sample includes a monolingual textual representation of a respective sentence. The operations also include, for each text sampl...

Full description

Saved in:
Bibliographic Details
Main Authors MALMI, Eric, MALLINSON, Jonathan, KRAUSE, Sebastian, SEVERYN, Aliaksei, ROTHE, Sascha
Format Patent
LanguageEnglish
French
Published 22.12.2022
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:A method (400) of training a text-generating model (122) for grammatical error correction (GEC) includes obtaining a multilingual set (210) of text samples (212). Each text sample includes a monolingual textual representation of a respective sentence. The operations also include, for each text sample of the multilingual set of text samples, generating a corrupted synthetic version (222) of the respective text sample, the corrupted synthetic version of the respective text sample including a grammatical change to the monolingual textual representation of the respective sentence associated with the respective text sample. The operations further include training the text-generating model using a training set (230) of sample pairs (232). Each sample pair includes one of the respective text samples of the multilingual set of text samples and the corresponding corrupted synthetic version of the one of the respective text samples of the multilingual set of text samples. Un procédé (400) d'apprentissage d'un modèle de génération de texte (122) pour une correction d'erreur grammaticale (GEC) comprend l'obtention d'un ensemble multilingue (210) d'échantillons de texte (212). Chaque échantillon de texte comprend une représentation textuelle monolingue d'une phrase respective. Les opérations comprennent également, pour chaque échantillon de texte de l'ensemble multilingue d'échantillons de texte, la génération d'une version synthétique altérée (222) de l'échantillon de texte respectif, la version synthétique altérée de l'échantillon de texte respectif comprenant un changement grammatical à la représentation textuelle monolingue de la phrase respective associée à l'échantillon de texte respectif. Les opérations comprennent en outre l'apprentissage du modèle de génération de texte à l'aide d'un ensemble d'apprentissage (230) de paires d'échantillons (232). Chaque paire d'échantillons comprend l'un des échantillons de texte respectifs de l'ensemble multilingue d'échantillons de texte et la version synthétique altérée correspondante de l'un des échantillons de texte respectifs de l'ensemble multilingue d'échantillons de texte.
Bibliography:Application Number: WO2022US72965