整合疾病階層關係輔助資料量不平均之診斷文字理解

電子病歷中記錄了病人相關的症狀描述、看診的歷史紀錄等文字資料，每一筆紀錄都有其對應的診斷代碼，代表著該次就醫時醫師所下的診斷結果及其治療方案等資訊。此研究期望利用機器學習人工智慧之技術，建立一套自動標記代碼之系統，藉由閱讀醫師所寫下之文字資訊，自動產生對應之代碼。然而，需要考慮的代碼數量有上千個，有些代碼出現次數頻繁，有些代碼較罕見，在機器學習技術中，少見的代碼所對應的資料量也較為不足，而這些不平均的資料會造成標註成效不佳。故此研究另外利用專家在診斷代碼上建造之階層關係，進一步改善資料量不足之代碼之辨識效能。為了能讓模型有效利用診斷代碼的階層關係這類額外的專家知識，我們提出了各種不同的方式去計...

Full description

Saved in:

Bibliographic Details
Published in	台灣醫學 Vol. 24; no. 1; pp. 65 - 73
Main Authors	蔡尚錡(Shang-Chi Tsai), 陳縕儂(Yun-Nung Chen)
Format	Journal Article
Language	Chinese
Published	台灣臺灣醫學會 25.01.2020
Subjects	deep learning ICD natural language processing semantic understanding TSCI 深度學習自然語言處理語意理解 deep learning 語意理解 natural language processing semantic understanding 深度學習自然語言處理 ICD
Online Access	Get full text

Cover

Loading…

More Information
Summary:	電子病歷中記錄了病人相關的症狀描述、看診的歷史紀錄等文字資料，每一筆紀錄都有其對應的診斷代碼，代表著該次就醫時醫師所下的診斷結果及其治療方案等資訊。此研究期望利用機器學習人工智慧之技術，建立一套自動標記代碼之系統，藉由閱讀醫師所寫下之文字資訊，自動產生對應之代碼。然而，需要考慮的代碼數量有上千個，有些代碼出現次數頻繁，有些代碼較罕見，在機器學習技術中，少見的代碼所對應的資料量也較為不足，而這些不平均的資料會造成標註成效不佳。故此研究另外利用專家在診斷代碼上建造之階層關係，進一步改善資料量不足之代碼之辨識效能。為了能讓模型有效利用診斷代碼的階層關係這類額外的專家知識，我們提出了各種不同的方式去計算卷積神經網路的損失函數以此來取得同一種類別的診斷中所共享的語義資訊。這樣的資訊不只讓模型有額外的醫學知識作為學習方向，也幫助解決訓練資料中樣本數量不平衡的問題。根據我們做在MIMIC3這份國際通用的資料集的結果顯示，我們提出的方法確實能夠有效利用階層種類的知識並提供模型有意義的資訊來幫助改善現階段最好的預測結果。而這樣的討論與研究也顯示了結合額外的專家知識於機器學習的模型中是有一定的好處與重要性，能啟發未來更多的研究方向。
ISSN:	1028-1916
DOI:	10.6320/FJM.202001_24(1).0007