UMLSからの同義語を追加した形態素解析辞書を使用したPhenotypingの性能評価
蓄積された膨大な医療データの二次的な活用を行うためには,特定の病態条件を有する症例を抽出するe-phenotypingが重要となる.本研究では,Human Phenotype Ontology(HPO)のコードがタグ付けされた症例報告テキストから,疾患や症状・所見を形態素解析により固有表現抽出するタスクを設定した.公開されるHPOの和訳データを元に作成した形態素解析辞書をベースラインとし,これに統合医学用語システム(UMLS:Unified Medical Language System)より取得した同義語を追加することで性能が向上するかどうかを評価した.179件の症例報告テキストに対する評価...
Saved in:
Published in | 医療情報学 Vol. 44; no. 1; pp. 21 - 28 |
---|---|
Main Authors | , , , , |
Format | Journal Article |
Language | Japanese |
Published |
一般社団法人 日本医療情報学会
08.04.2024
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | 蓄積された膨大な医療データの二次的な活用を行うためには,特定の病態条件を有する症例を抽出するe-phenotypingが重要となる.本研究では,Human Phenotype Ontology(HPO)のコードがタグ付けされた症例報告テキストから,疾患や症状・所見を形態素解析により固有表現抽出するタスクを設定した.公開されるHPOの和訳データを元に作成した形態素解析辞書をベースラインとし,これに統合医学用語システム(UMLS:Unified Medical Language System)より取得した同義語を追加することで性能が向上するかどうかを評価した.179件の症例報告テキストに対する評価の結果,ベースライン手法は,Recall 0.335,Precision 0.099,F1値0.153,提案手法は,Recall 0.531,Precision 0.150,F1値0.234を示し,提案手法による性能向上を認めた.抽出性能は依然とし高くないものの,UMLSに由来する同義語を追加することでPhenotypingの性能が大きく向上することを確認した. |
---|---|
ISSN: | 0289-8055 2188-8469 |
DOI: | 10.14948/jami.44.21 |