단어 임베딩 분석을 통한 신경망 기계 번역 시스템의 성능 비교: 한국어-일본어, 한국어-영어를 중심으로

본 연구에서는 MASS를 이용해 사전 학습 모델을 구축하고 병렬 데이터로 파인 튜닝하여 한국어-영어와 한국어-일본어 기계 번역 모델을 구축한다. 한국어, 일본어, 영어는 모두 다른 문자 체계를사용한다. 한국어와 일본어는 주어-목적어-동사의 어순을 갖는 반면 영어는 주어-동사-목적어의 어순을갖는다. 본 연구에서는 신경망 기반의 기계 번역을 구축할 때 두 언어 사이의 문자 체계를 공유하는 여부와 문장 어순의 유사성에 따른 기계번역의 성능을 평가해 보았다. 모델의 성능 차이를 단어 임베딩을 통해 분석해 보기 위해 어휘 번역 실험과 문장...

Full description

Saved in:
Bibliographic Details
Published in정보과학회 컴퓨팅의 실제 논문지 Vol. 28; no. 2; pp. 81 - 88
Main Authors 최용석(Yong-Seok Choi), 박요한(Yo-Han Park), 윤승(Seung Yun), 김상훈(Sanghun Kim), 이공주(Kong Joo Lee)
Format Journal Article
LanguageKorean
Published Korean Institute of Information Scientists and Engineers 01.02.2022
한국정보과학회
Subjects
Online AccessGet full text
ISSN2383-6318
2383-6326
DOI10.5626/KTCP.2022.28.2.81

Cover

Abstract 본 연구에서는 MASS를 이용해 사전 학습 모델을 구축하고 병렬 데이터로 파인 튜닝하여 한국어-영어와 한국어-일본어 기계 번역 모델을 구축한다. 한국어, 일본어, 영어는 모두 다른 문자 체계를사용한다. 한국어와 일본어는 주어-목적어-동사의 어순을 갖는 반면 영어는 주어-동사-목적어의 어순을갖는다. 본 연구에서는 신경망 기반의 기계 번역을 구축할 때 두 언어 사이의 문자 체계를 공유하는 여부와 문장 어순의 유사성에 따른 기계번역의 성능을 평가해 보았다. 모델의 성능 차이를 단어 임베딩을 통해 분석해 보기 위해 어휘 번역 실험과 문장 검색 기계 번역 실험을 수행하였다. 실험 결과 인코더의 단어 임베딩이 디코더에 비해 훨씬 중요하고 한국어-영어보다는 한국어-일본어의 경우 더 좋은 성능을 발휘함을 알 수 있었다. 문장 검색 기계 번역 실험에서 한국어-영어의 경우에는 소량의 병렬 데이터만으로도큰 폭의 성능 향상이 관찰되었다. In this study, we have pre-trained MASS models and built neural machine translation (NMT) systems for Korean-English and Korean-Japanese based on them. Korean, Japanese, and English use different writing scripts. Korean and Japanese are Subject-Object-Verb languages, while English is a Subject-Verb-Object language. In this study, we have evaluated the performances of NMT systems according to the similarity between languages, such as word order and writing scripts. To compare the performances of NMT models from the perspective of word embeddings, we have conducted the following two experiments: word translation and sentence translation retrieval using word embedding learned by NMT models. The accuracies of word translation and sentence translation for word embeddings of a Korean-Japanese NMT model were higher than those of a Korean-English pair. Moreover, the word embeddings learned by an encoder were more important than those learned by a decoder when used in NMT. Based on the result of sentence translation retrieval of a Korean-English NMT model, we found that a Korean-English unsupervised NMT model could be significantly improved when trained even with a small amount of parallel data. KCI Citation Count: 0
AbstractList 본 연구에서는 MASS를 이용해 사전 학습 모델을 구축하고 병렬 데이터로 파인 튜닝하여 한국어-영어와 한국어-일본어 기계 번역 모델을 구축한다. 한국어, 일본어, 영어는 모두 다른 문자 체계를사용한다. 한국어와 일본어는 주어-목적어-동사의 어순을 갖는 반면 영어는 주어-동사-목적어의 어순을갖는다. 본 연구에서는 신경망 기반의 기계 번역을 구축할 때 두 언어 사이의 문자 체계를 공유하는 여부와 문장 어순의 유사성에 따른 기계번역의 성능을 평가해 보았다. 모델의 성능 차이를 단어 임베딩을 통해 분석해 보기 위해 어휘 번역 실험과 문장 검색 기계 번역 실험을 수행하였다. 실험 결과 인코더의 단어 임베딩이 디코더에 비해 훨씬 중요하고 한국어-영어보다는 한국어-일본어의 경우 더 좋은 성능을 발휘함을 알 수 있었다. 문장 검색 기계 번역 실험에서 한국어-영어의 경우에는 소량의 병렬 데이터만으로도큰 폭의 성능 향상이 관찰되었다. In this study, we have pre-trained MASS models and built neural machine translation (NMT) systems for Korean-English and Korean-Japanese based on them. Korean, Japanese, and English use different writing scripts. Korean and Japanese are Subject-Object-Verb languages, while English is a Subject-Verb-Object language. In this study, we have evaluated the performances of NMT systems according to the similarity between languages, such as word order and writing scripts. To compare the performances of NMT models from the perspective of word embeddings, we have conducted the following two experiments: word translation and sentence translation retrieval using word embedding learned by NMT models. The accuracies of word translation and sentence translation for word embeddings of a Korean-Japanese NMT model were higher than those of a Korean-English pair. Moreover, the word embeddings learned by an encoder were more important than those learned by a decoder when used in NMT. Based on the result of sentence translation retrieval of a Korean-English NMT model, we found that a Korean-English unsupervised NMT model could be significantly improved when trained even with a small amount of parallel data. KCI Citation Count: 0
Author 이공주(Kong Joo Lee)
김상훈(Sanghun Kim)
박요한(Yo-Han Park)
윤승(Seung Yun)
최용석(Yong-Seok Choi)
Author_xml – sequence: 1
  fullname: 최용석(Yong-Seok Choi)
– sequence: 2
  fullname: 박요한(Yo-Han Park)
– sequence: 3
  fullname: 윤승(Seung Yun)
– sequence: 4
  fullname: 김상훈(Sanghun Kim)
– sequence: 5
  fullname: 이공주(Kong Joo Lee)
BackLink https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002810550$$DAccess content in National Research Foundation of Korea (NRF)
BookMark eNpNj8tKw0AYhQdRsFYfwN1sXAgmzi3TiTupVYuiIt2HpE0lqK20uHApRJF2o-Cli0QUFBUUtFpRqC-Umb6DgxZx85-Pw_kPnBEwWKlWfADGMTItTvj0UiG7ZhJEiEmESUyBB0CKUEENTgkf_GMshsFYvR54iGBBmLBxCjRl816dv0F1Gcr2lTx9gPI9VGGs4hD2Dju9swiq5lXS_pJ3MUw-npPXEMr2kbp40n6kGje9g0jFLajCF9m4hfIzTDrHM1D_JZ0nXWyouCtfPzRN_Tdb-1rkbReqmxPVfFRRV15Ho2Co7G7V_bG-pkFhPlfILhrLqwv57OyyUeHMMopWRq8qF_XFFrNdKhhDnvA9nhE-Qr5VwlR4gpVRKeO5HmUMc-aTkiuQEIzbNA0mf2srtbKzWQycqhv86EbV2aw5s-uFvGPbxM5wobMT_exuLdj2S4Hr7Ghwa3vOyupcDmNEGbUt-g0iuJ6s
ContentType Journal Article
DBID DBRKI
TDB
ACYCR
DOI 10.5626/KTCP.2022.28.2.81
DatabaseName DBPIA - 디비피아
Nurimedia DBPIA Journals
Korean Citation Index
DatabaseTitleList
DeliveryMethod fulltext_linktorsrc
DocumentTitleAlternate A Performance Comparison of Neural Machine Translation Systems through Vocabulary sets and Word Embeddings: Focus on Korean-English and Korean-Japanese
DocumentTitle_FL A Performance Comparison of Neural Machine Translation Systems through Vocabulary sets and Word Embeddings: Focus on Korean-English and Korean-Japanese
EISSN 2383-6326
EndPage 88
ExternalDocumentID oai_kci_go_kr_ARTI_9929768
NODE11034395
GroupedDBID .UV
ALMA_UNASSIGNED_HOLDINGS
DBRKI
TDB
ACYCR
M~E
ID FETCH-LOGICAL-n645-c57326fc7321549a38440b8eb678e00e5d138b84f0d7bab344164e2da80884693
ISSN 2383-6318
IngestDate Tue Nov 21 21:03:31 EST 2023
Thu Feb 06 13:23:29 EST 2025
IsPeerReviewed false
IsScholarly false
Issue 2
Keywords word embedding
MASS
SVO order
machine translation
문자 체계
SOV order
scripts
단어 임베딩
SOV 순서
기계 번역
SVO 순서
Language Korean
LinkModel OpenURL
MergedId FETCHMERGED-LOGICAL-n645-c57326fc7321549a38440b8eb678e00e5d138b84f0d7bab344164e2da80884693
PageCount 8
ParticipantIDs nrf_kci_oai_kci_go_kr_ARTI_9929768
nurimedia_primary_NODE11034395
PublicationCentury 2000
PublicationDate 2022-02
PublicationDateYYYYMMDD 2022-02-01
PublicationDate_xml – month: 02
  year: 2022
  text: 2022-02
PublicationDecade 2020
PublicationTitle 정보과학회 컴퓨팅의 실제 논문지
PublicationYear 2022
Publisher Korean Institute of Information Scientists and Engineers
한국정보과학회
Publisher_xml – name: Korean Institute of Information Scientists and Engineers
– name: 한국정보과학회
SSID ssib021824891
ssib044742771
ssib053377435
ssib019653237
Score 1.7830601
Snippet 본 연구에서는 MASS를 이용해 사전 학습 모델을 구축하고 병렬 데이터로 파인 튜닝하여 한국어-영어와 한국어-일본어 기계 번역 모델을 구축한다. 한국어, 일본어, 영어는 모두 다른 문자 체계를사용한다. 한국어와 일본어는 주어-목적어-동사의 어순을 갖는 반면 영어는 주어-동사-목적어의...
SourceID nrf
nurimedia
SourceType Open Website
Publisher
StartPage 81
SubjectTerms 컴퓨터학
Title 단어 임베딩 분석을 통한 신경망 기계 번역 시스템의 성능 비교: 한국어-일본어, 한국어-영어를 중심으로
URI https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11034395
https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002810550
Volume 28
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
ispartofPNX 정보과학회 컴퓨팅의 실제 논문지, 2022, 28(2), , pp.81-88
link http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwnV3Na9RAFA-1HvQiior1owQxpzVrNjOTzHhLsitVafWwQm_LZjcRKWyltBcPihBFuhcFP3rYlQotKljQ1pUK9R_apP-DbyaTbKoVq5fZx5t5v3nzXjbz3jCZUZRLEEEwFrZDSEuaSMcorOh-k2IdInNSCanPqDi7c3rGmrqDb8yS2bHxR4VdS0uLfrn1YN_vSv7Hq8ADv_KvZP_BszkoMIAG_0IJHobyQD7Waq5GXc2hWs3TmKW5uCSomkYxr3NNzTE4wbDmQPbPWZao83jJqqJ1FWiogx9AIJxgRGOegOLogOBwKLfKARwbJEqCRTU3rUMpguiQpsrYmlPNEJgnCEdzsOiGSA70zGhJKuNWxGigEUmhmFDU4Soxgy9c5JpJrlPNh61LONcToojrltXxh-ivohQi6pEEHyYBMKEbKM0qmS1SvT3ZkVMBuhjei_YG70qqgaV9ePtUBSYIR6MpuuuKRsBCwo9gHo9baK95XGG6FNsT5qEk08GTgwXH8H2cXsmkkDWYhSUe0U9udLAwyx-AUROXO5MR2YTh3GRFFMbNUZLedAsdOMJfhqhBwpYgDVrS4qqSaWYb0eV7YH-3HNiAo0kMIkKkW0jOsUGRZxYnzvTeniwEo_tN7hCp83Wmm3XvdpmrXDZp2SxngsWD1H8JcPYcpT7Xute4O9-YW2hAwni9wSA9gIz7kHLYtG2xz2P6YS2bkPhpm6hwmBO_7QDT0eFSGNuYi4kLLOU4050TXNcrv2kK8WtnAcLeI50lfncHTACFWLZ-XDkmk1DVSd8oJ5SxufmTSjfufkhef1WTt1G8uRq__KjG36Ik6if9SN19Oth91VOT7upw80f8vq8Otz8PtyI13nyWvNkAfi9ZXtt90kv6K2oSfYmX19X4ezQcPL-qgtxwsAHAetLfibe2gbpcZK48hp94fUdN1l4k3U9Jbyd-1zul1K_V6t6ULq9q0TvwUtdbxAZ3hi0o-ZGPTUQxNnwa-BAKB4YRkHYFUZ_i0GjbftNHkINZODDbTQpBDrYYOq2Md-Y7wRlF9VGLWgABebSPSQgJSJMQ37cqlkEMH9MJ5SLYULjxz-6cUCZzEzfup8f2NGZuVWuQ7CBIwcjZg6CcU46O_hrnlfHFhaXgAqQgi_6keEx-Ag0h-tQ
linkProvider ISSN International Centre
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%EB%8B%A8%EC%96%B4+%EC%9E%84%EB%B2%A0%EB%94%A9+%EB%B6%84%EC%84%9D%EC%9D%84+%ED%86%B5%ED%95%9C+%EC%8B%A0%EA%B2%BD%EB%A7%9D+%EA%B8%B0%EA%B3%84+%EB%B2%88%EC%97%AD+%EC%8B%9C%EC%8A%A4%ED%85%9C%EC%9D%98+%EC%84%B1%EB%8A%A5+%EB%B9%84%EA%B5%90%3A+%ED%95%9C%EA%B5%AD%EC%96%B4-%EC%9D%BC%EB%B3%B8%EC%96%B4%2C+%ED%95%9C%EA%B5%AD%EC%96%B4-%EC%98%81%EC%96%B4%EB%A5%BC+%EC%A4%91%EC%8B%AC%EC%9C%BC%EB%A1%9C&rft.jtitle=%EC%A0%95%EB%B3%B4%EA%B3%BC%ED%95%99%ED%9A%8C+%EC%BB%B4%ED%93%A8%ED%8C%85%EC%9D%98+%EC%8B%A4%EC%A0%9C+%EB%85%BC%EB%AC%B8%EC%A7%80%2C+28%282%29&rft.au=%EC%B5%9C%EC%9A%A9%EC%84%9D&rft.au=%EB%B0%95%EC%9A%94%ED%95%9C&rft.au=%EC%9C%A4+%EC%8A%B9&rft.au=%EA%B9%80%EC%83%81%ED%9B%88&rft.date=2022-02-01&rft.pub=%ED%95%9C%EA%B5%AD%EC%A0%95%EB%B3%B4%EA%B3%BC%ED%95%99%ED%9A%8C&rft.issn=2383-6318&rft.eissn=2383-6326&rft.spage=81&rft.epage=88&rft_id=info:doi/10.5626%2FKTCP.2022.28.2.81&rft.externalDBID=n%2Fa&rft.externalDocID=oai_kci_go_kr_ARTI_9929768
thumbnail_l http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=2383-6318&client=summon
thumbnail_m http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=2383-6318&client=summon
thumbnail_s http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=2383-6318&client=summon