面向主题场景的科技文献AI数据体系建设:技术框架研究与实践

G250.7; [目的/意义]人工智能赋能科学研究已成为推动科学发现的重要驱动力.面向主题场景的高质量数据资源是训练高性能AI模型的关键,鉴于科技文献数据的复杂性及其直接用于大模型训练的局限性,亟须构建一套系统化的数据建设技术框架,通过对科技文献资源进行一系列的加工、提炼和整合,最终构建面向AI应用的高质量训练语料.[方法/过程]本研究提出了科技文献AI数据体系建设的"3+5 技术框架",围绕AI数据体系建设全流程,提炼设计了3个层次的数据内容,以及5个阶段的数据治理过程,基于大数据技术、智能挖掘技术作为数据治理的关键要素,详细阐述了数据治理工具链的体系架构与功能.[结果/...

Full description

Saved in:
Bibliographic Details
Published in农业图书情报学报 Vol. 36; no. 9; pp. 4 - 17
Main Authors 常志军, 钱力, 吴垚葶, 曲云鹏, 巩玥, 张智雄
Format Journal Article
LanguageChinese
Published 国家新闻出版署 学术期刊新型出版与知识服务重点实验室,北京 100190%中国科学院文献情报中心,北京 100190 2024
中国科学院文献情报中心,北京 100190
中国科学院大学 经济与管理学院信息资源管理系,北京 100190
Subjects
Online AccessGet full text
ISSN1002-1248
DOI10.13998/j.cnki.issn1002-1248.24-0755

Cover

More Information
Summary:G250.7; [目的/意义]人工智能赋能科学研究已成为推动科学发现的重要驱动力.面向主题场景的高质量数据资源是训练高性能AI模型的关键,鉴于科技文献数据的复杂性及其直接用于大模型训练的局限性,亟须构建一套系统化的数据建设技术框架,通过对科技文献资源进行一系列的加工、提炼和整合,最终构建面向AI应用的高质量训练语料.[方法/过程]本研究提出了科技文献AI数据体系建设的"3+5 技术框架",围绕AI数据体系建设全流程,提炼设计了3个层次的数据内容,以及5个阶段的数据治理过程,基于大数据技术、智能挖掘技术作为数据治理的关键要素,详细阐述了数据治理工具链的体系架构与功能.[结果/结论]为验证所提出的技术框架的有效性,本研究将其应用于水稻育种领域的AI数据体系构建实践中.结果表明,该框架能够有效地处理科技文献数据,构建出了高质量的领域数据集,为AI模型在水稻育种研究中的应用提供了数据支撑,验证了该技术框架的有效性和实用性.
ISSN:1002-1248
DOI:10.13998/j.cnki.issn1002-1248.24-0755