UMLSからの同義語を追加した形態素解析辞書を使用したPhenotypingの性能評価

蓄積された膨大な医療データの二次的な活用を行うためには,特定の病態条件を有する症例を抽出するe-phenotypingが重要となる.本研究では,Human Phenotype Ontology(HPO)のコードがタグ付けされた症例報告テキストから,疾患や症状・所見を形態素解析により固有表現抽出するタスクを設定した.公開されるHPOの和訳データを元に作成した形態素解析辞書をベースラインとし,これに統合医学用語システム(UMLS:Unified Medical Language System)より取得した同義語を追加することで性能が向上するかどうかを評価した.179件の症例報告テキストに対する評価...

Full description

Saved in:
Bibliographic Details
Published in医療情報学 Vol. 44; no. 1; pp. 21 - 28
Main Authors 榎原, 芽美, 柴田, 大作, 篠原, 恵美子, 河添, 悦昌, 大江, 和彦
Format Journal Article
LanguageJapanese
Published 一般社団法人 日本医療情報学会 08.04.2024
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:蓄積された膨大な医療データの二次的な活用を行うためには,特定の病態条件を有する症例を抽出するe-phenotypingが重要となる.本研究では,Human Phenotype Ontology(HPO)のコードがタグ付けされた症例報告テキストから,疾患や症状・所見を形態素解析により固有表現抽出するタスクを設定した.公開されるHPOの和訳データを元に作成した形態素解析辞書をベースラインとし,これに統合医学用語システム(UMLS:Unified Medical Language System)より取得した同義語を追加することで性能が向上するかどうかを評価した.179件の症例報告テキストに対する評価の結果,ベースライン手法は,Recall 0.335,Precision 0.099,F1値0.153,提案手法は,Recall 0.531,Precision 0.150,F1値0.234を示し,提案手法による性能向上を認めた.抽出性能は依然とし高くないものの,UMLSに由来する同義語を追加することでPhenotypingの性能が大きく向上することを確認した.
ISSN:0289-8055
2188-8469
DOI:10.14948/jami.44.21