基于多模态大语言模型的数字厨师与智能烹饪系统
TP391.4; 面向高质量和精准烹饪的需求,提出一种基于多模态大语言模型的数字厨师与智能烹饪方法.离线阶段利用视觉、声音、温度等多源传感器记录专业厨师的连续操作,将图像与多轮问答文本融合,建立烹饪专家知识库,并采用低秩适配方法对预训练多模态大语言模型进行微调,以构建能够理解烹饪意图的多模态大语言模型.在线阶段将实时感知的数据转换为图文输入微调后的大语言模型,经模型分析后生成烹饪指令,引导用户完成相应的烹饪动作.以煎牛排任务为例,搭建了智能烹饪软硬件系统并进行实验验证.实验结果表明,经过微调后的智能烹饪系统能有效控制牛排的熟度与品质,相较于微调前的模型,显著提升了烹饪指令的合理性和针对性....
Saved in:
Published in | 智能科学与技术学报 Vol. 6; no. 4; pp. 429 - 444 |
---|---|
Main Authors | , , , , , , |
Format | Journal Article |
Language | Chinese |
Published |
湖南大学整车先进设计制造技术全国重点实验室,湖南 长沙 410082%中国科学院自动化研究所多模态人工智能系统全国重点实验室,北京 100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室,北京 100190
01.12.2024
澳门科技大学创新工程学院工程科学系,澳门 999078 湖南大学机械与运载工程学院,湖南 长沙 410082%湖南大学机械与运载工程学院,湖南 长沙 410082 中国科学院大学人工智能学院,北京 100049 |
Subjects | |
Online Access | Get full text |
ISSN | 2096-6652 |
DOI | 10.11959/j.issn.2096-6652.202448 |
Cover
Summary: | TP391.4; 面向高质量和精准烹饪的需求,提出一种基于多模态大语言模型的数字厨师与智能烹饪方法.离线阶段利用视觉、声音、温度等多源传感器记录专业厨师的连续操作,将图像与多轮问答文本融合,建立烹饪专家知识库,并采用低秩适配方法对预训练多模态大语言模型进行微调,以构建能够理解烹饪意图的多模态大语言模型.在线阶段将实时感知的数据转换为图文输入微调后的大语言模型,经模型分析后生成烹饪指令,引导用户完成相应的烹饪动作.以煎牛排任务为例,搭建了智能烹饪软硬件系统并进行实验验证.实验结果表明,经过微调后的智能烹饪系统能有效控制牛排的熟度与品质,相较于微调前的模型,显著提升了烹饪指令的合理性和针对性. |
---|---|
ISSN: | 2096-6652 |
DOI: | 10.11959/j.issn.2096-6652.202448 |