面向主题场景的科技文献AI数据体系建设:技术框架研究与实践
G250.7; [目的/意义]人工智能赋能科学研究已成为推动科学发现的重要驱动力.面向主题场景的高质量数据资源是训练高性能AI模型的关键,鉴于科技文献数据的复杂性及其直接用于大模型训练的局限性,亟须构建一套系统化的数据建设技术框架,通过对科技文献资源进行一系列的加工、提炼和整合,最终构建面向AI应用的高质量训练语料.[方法/过程]本研究提出了科技文献AI数据体系建设的"3+5 技术框架",围绕AI数据体系建设全流程,提炼设计了3个层次的数据内容,以及5个阶段的数据治理过程,基于大数据技术、智能挖掘技术作为数据治理的关键要素,详细阐述了数据治理工具链的体系架构与功能.[结果/...
Saved in:
Published in | 农业图书情报学报 Vol. 36; no. 9; pp. 4 - 17 |
---|---|
Main Authors | , , , , , |
Format | Journal Article |
Language | Chinese |
Published |
国家新闻出版署 学术期刊新型出版与知识服务重点实验室,北京 100190%中国科学院文献情报中心,北京 100190
2024
中国科学院文献情报中心,北京 100190 中国科学院大学 经济与管理学院信息资源管理系,北京 100190 |
Subjects | |
Online Access | Get full text |
ISSN | 1002-1248 |
DOI | 10.13998/j.cnki.issn1002-1248.24-0755 |
Cover
Summary: | G250.7; [目的/意义]人工智能赋能科学研究已成为推动科学发现的重要驱动力.面向主题场景的高质量数据资源是训练高性能AI模型的关键,鉴于科技文献数据的复杂性及其直接用于大模型训练的局限性,亟须构建一套系统化的数据建设技术框架,通过对科技文献资源进行一系列的加工、提炼和整合,最终构建面向AI应用的高质量训练语料.[方法/过程]本研究提出了科技文献AI数据体系建设的"3+5 技术框架",围绕AI数据体系建设全流程,提炼设计了3个层次的数据内容,以及5个阶段的数据治理过程,基于大数据技术、智能挖掘技术作为数据治理的关键要素,详细阐述了数据治理工具链的体系架构与功能.[结果/结论]为验证所提出的技术框架的有效性,本研究将其应用于水稻育种领域的AI数据体系构建实践中.结果表明,该框架能够有效地处理科技文献数据,构建出了高质量的领域数据集,为AI模型在水稻育种研究中的应用提供了数据支撑,验证了该技术框架的有效性和实用性. |
---|---|
ISSN: | 1002-1248 |
DOI: | 10.13998/j.cnki.issn1002-1248.24-0755 |