Encoder-Decoder 기반 한국어 문법 오류 교정을 위한 Encoder에서의 신경망 언어 모델 도입
Grammatical Error Correction (GEC) is intended to detect and correct all grammatical errors in given sentences. GEC is used to help L2 learners, who can obtain useful feedback from the corrections to improve their writing. GEC can also be applied to specific systems as an independent processor that...
Saved in:
Published in | 정보과학회 컴퓨팅의 실제 논문지 Vol. 24; no. 6; pp. 301 - 306 |
---|---|
Main Authors | , , , |
Format | Journal Article |
Language | Korean |
Published |
Korean Institute of Information Scientists and Engineers
2018
한국정보과학회 |
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | Grammatical Error Correction (GEC) is intended to detect and correct all grammatical errors in given sentences. GEC is used to help L2 learners, who can obtain useful feedback from the corrections to improve their writing. GEC can also be applied to specific systems as an independent processor that corrects erroneous input/output data. In this paper, we propose a practical method that uses monolingual corpora to mitigate the lack of parallel data, which is essential to train a GEC model. We train a neural language model and apply it to the encoder of a neural machine translation (NMT) model to identify erroneous syllables clearly. The NMT model identifies more of the copied syllables that are correctly written, thus preventing the model from generating unnecessary corrections. 문법 오류 교정은 주어진 문장에서 나타난 문법적인 오류들을 탐지하고 이를 올바르게 교정하는 것으로, 특정 언어를 배우고자 하는 L2 학습자들을 돕거나 시스템의 잘못된 입출력 수정 등 다양한 응용 분야에 활용 가능하다. 본 논문에서는 한국어 문법 오류 교정 학습에 필수적인 교정 병렬 데이터가 부족한 문제를 보완하기 위하여 단일 말뭉치를 활용하는 기법을 제안한다. 단일 말뭉치로 학습시킨 신경망 언어 모델을 Encoder에 도입하여, 신경망 기계 번역 기반 교정 모델이 올바르게 사용된 음절과 문법적으로 잘못 사용된 음절을 보다 명확하게 구분할 수 있게 한다. 이를 토대로, 올바르게 사용된 음절의 복사량을 증가시키면서 기존 Encoder-Decoder 모델의 잘못된 교정을 방지하는 것을 확인할 수 있었다. |
---|---|
ISSN: | 2383-6318 2383-6326 |
DOI: | 10.5626/KTCP.2018.24.6.301 |