英語版医療機器不具合用語集を対象とした深層学習による機械翻訳の精度評価

医療機器における不具合用語集の国際整合のため,医療機器産業連合会(JFMDA)が作成している医療機器不具合用語集(JFMDA用語集)と国際医療機器規制当局フォーラムが公開している用語集(IMDRF用語集)を効率的にマッピングするためのシステム構築を進めている.本研究では,その第一段階として,深層学習を用いたIMDRF用語集の自動翻訳を実施し,その精度評価を行った.翻訳用モデルとして,sequence-to-sequenceベースの学習済み公開モデルであるmBARTと100言語の翻訳が可能なモデルであるTransformerベースのm2m-100(418Mパラメータモデルと1.2Bパラメータモデ...

Full description

Saved in:
Bibliographic Details
Published in医療情報学 Vol. 42; no. 5; pp. 211 - 215
Main Authors 谷川原, 綾子, 横井, 英人, 上杉, 正人
Format Journal Article
LanguageJapanese
Published 一般社団法人 日本医療情報学会 03.03.2023
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:医療機器における不具合用語集の国際整合のため,医療機器産業連合会(JFMDA)が作成している医療機器不具合用語集(JFMDA用語集)と国際医療機器規制当局フォーラムが公開している用語集(IMDRF用語集)を効率的にマッピングするためのシステム構築を進めている.本研究では,その第一段階として,深層学習を用いたIMDRF用語集の自動翻訳を実施し,その精度評価を行った.翻訳用モデルとして,sequence-to-sequenceベースの学習済み公開モデルであるmBARTと100言語の翻訳が可能なモデルであるTransformerベースのm2m-100(418Mパラメータモデルと1.2Bパラメータモデル),Open AIが公開しているGPT-3,Googleが公開しているgoogletransを取得した.加えて,医療機器関連対訳コーパスからオリジナルの翻訳モデル,mBARTと2つのm2m-100をファインチューニングしたモデルも生成した.IMDRF用語集の対訳文からテストデータを抽出し,各モデルにおける翻訳精度を評価したところ,googletransのBLEUスコアが27.3と最も高く,目視評価でも78%と最良の翻訳品質と判定された.GPT-3では,目視評価においてはgoogletransに次ぐ76%であった.mBART50はファインチューニングによりBLEUはわずかに向上したが,目視評価にて品質は低下と判断された.m2m-100は,ファインチューニングしたモデルにてBLEUが低下し,品質も低下した.自作モデルはBLEUが最低となり,目視評価でも最低の品質と判定された.
ISSN:0289-8055
2188-8469
DOI:10.14948/jami.42.211