生成式大语言模型在中文放射医学领域的应用研究

TP391; 在中文放射医学领域中,影像学报告是临床决策的重要依据.因此,利用自然语言处理(NLP)技术来理解和学习影像学报告的文本内容,并以此辅助完成放射科临床工作,已成为该领域的重要研究方向.然而,在使用传统方法处理基于中文影像学报告的自然语言分类与生成任务时,仍然面临训练语料匮乏且涉及隐私、模型泛化能力较差等限制导致的综合性能不足的情况.针对上述问题,提出了一种基于本地高效微调大语言模型的中文放射医学领域自然语言任务解决方案.通过收集并构建大规模高质量中文影像学报告自然语言任务数据集,采用LoRA高效微调方法对开源大语言模型Baichuan2进行有监督微调训练,提出了能够同时解决四种中文...

Full description

Saved in:
Bibliographic Details
Published in计算机科学与探索 Vol. 18; no. 9; pp. 2337 - 2348
Main Authors 陈龙飞, 高鑫, 侯皓天, 叶初阳, 刘亚欧, 张美慧
Format Journal Article
LanguageChinese
Published 北京理工大学 计算机学院,北京 100081%北京理工大学 集成电路与电子学院,北京 100081%首都医科大学附属北京天坛医院 放射科,北京 100070 01.09.2024
Subjects
Online AccessGet full text
ISSN1673-9418
DOI10.3778/j.issn.1673-9418.2406041

Cover

More Information
Summary:TP391; 在中文放射医学领域中,影像学报告是临床决策的重要依据.因此,利用自然语言处理(NLP)技术来理解和学习影像学报告的文本内容,并以此辅助完成放射科临床工作,已成为该领域的重要研究方向.然而,在使用传统方法处理基于中文影像学报告的自然语言分类与生成任务时,仍然面临训练语料匮乏且涉及隐私、模型泛化能力较差等限制导致的综合性能不足的情况.针对上述问题,提出了一种基于本地高效微调大语言模型的中文放射医学领域自然语言任务解决方案.通过收集并构建大规模高质量中文影像学报告自然语言任务数据集,采用LoRA高效微调方法对开源大语言模型Baichuan2进行有监督微调训练,提出了能够同时解决四种中文放射医学领域临床任务的"龙影大模型".提出了一套中文放射医学领域自然语言分类与生成任务评价体系.在来自两家中心的三个医学影像种类的报告数据集上进行了多组实验,并与几种典型现有方法进行了对比,结果显示所提方法在分类性能、文本总结与扩充能力和模型泛化性上表现更好.
ISSN:1673-9418
DOI:10.3778/j.issn.1673-9418.2406041