基于医疗临床数据的两阶段专业级大语言模型微调

TP391.1; 通用大语言模型(large language model,LLM)缺乏对专业领域知识理解的深度和广度,对专业领域问题回答的准确度不够,常常产生幻觉,阻碍了大语言模型的商业应用落地.因此,基于专业领域特有数据提高大型语言模型的专业性成为当前大语言模型应用落地的关键挑战.针对通用大语言模型在特定领域知识理解与生成内容专业性不够的问题进行了研究.基于P-Tuning v2与Freeze两种参数高效微调方法,提出了一种专业级大语言模型的两阶段微调框架.依赖该框架与肝胆科临床数据对ChatGLM-6B进行微调,得到一个针对肝胆专科的专业级大语言模型,命名为MedGLM.H.根据实验显示...

Full description

Saved in:
Bibliographic Details
Published in计算机应用研究 Vol. 41; no. 10; pp. 2906 - 2910
Main Authors 孙丽萍, 童子龙, 钱乾, 陆鑫涛, 凌晨, 方诚, 汤其宇, 蒋晓
Format Journal Article
LanguageChinese
Published 上海健康医学院 医疗器械学院,上海 201318 2024
复旦大学信息科学与工程学院,上海 200433%上海理工大学健康科学与工程学院,上海 200093%上海健康医学院 医疗器械学院,上海 201318%海军军医大学附属第三医院,上海 200438%中国人民解放军第905医院,上海 200052
Subjects
Online AccessGet full text
ISSN1001-3695
DOI10.19734/j.issn.1001-3695.2024.03.0071

Cover

More Information
Summary:TP391.1; 通用大语言模型(large language model,LLM)缺乏对专业领域知识理解的深度和广度,对专业领域问题回答的准确度不够,常常产生幻觉,阻碍了大语言模型的商业应用落地.因此,基于专业领域特有数据提高大型语言模型的专业性成为当前大语言模型应用落地的关键挑战.针对通用大语言模型在特定领域知识理解与生成内容专业性不够的问题进行了研究.基于P-Tuning v2与Freeze两种参数高效微调方法,提出了一种专业级大语言模型的两阶段微调框架.依赖该框架与肝胆科临床数据对ChatGLM-6B进行微调,得到一个针对肝胆专科的专业级大语言模型,命名为MedGLM.H.根据实验显示,微调后的大语言模型对于肝胆专科问题的准确率从31%提升到了 62%;得分率从57%提升到了 73%.在进行两阶段微调后,模型在肝胆专科的问答中表现出更高的准确性与专业性,根据三名临床医生进行的对话实验,证明了微调后的模型在更专业的医疗场景中具备应用潜力.
ISSN:1001-3695
DOI:10.19734/j.issn.1001-3695.2024.03.0071