视觉语言导航研究进展

视觉语言导航,即在一个未知环境中,智能体从一个起始位置出发,结合指令和周围视觉环境进行分析,并动态响应生成一系列动作,最终导航到目标位置.视觉语言导航有着广泛的应用前景,该任务近年来在多模态研究领域受到了广泛关注.不同于视觉问答和图像描述生成等传统多模态任务,视觉语言导航在多模态融合和推理方面,更具有挑战性.然而由于传统模仿学习的缺陷和数据稀缺的现象,模型面临着泛化能力不足的问题.系统地回顾了视觉语言导航的研究进展,首先对于视觉语言导航的数据集和基础模型进行简要介绍;然后全面地介绍视觉语言导航任务中的代表性模型方法,包括数据增强、搜索策略、训练方法和动作空间四个方面;最后根据不同数据集下的实验...

Full description

Saved in:

Bibliographic Details
Published in	自动化学报 Vol. 49; no. 1; pp. 1 - 14
Main Authors	司马双霖, 黄岩, 何科技, 安东, 袁辉, 王亮
Format	Journal Article
Language	Chinese
Published	中国科学院大学人工智能学院北京100049%中国科学院自动化研究所智能感知与计算研究中心北京100190 2023 中国科学院自动化研究所脑科学与智能技术卓越创新中心上海200031 中国科学院自动化研究所模式识别国家重点实验室北京100190 中科人工智能创新技术研究院胶州266300 中国科学院自动化研究所模式识别国家重点实验室北京100190%中国科学院自动化研究所智能感知与计算研究中心北京100190%中国科学院自动化研究所智能感知与计算研究中心北京100190 中国科学院自动化研究所智能感知与计算研究中心北京100190 中国科学院大学人工智能学院北京100049
Subjects	视觉语言理解视觉语言导航具身智能跨模态匹配
Online Access	Get full text
ISSN	0254-4156
DOI	10.16383/j.aas.c210352

Cover

More Information
Summary:	视觉语言导航,即在一个未知环境中,智能体从一个起始位置出发,结合指令和周围视觉环境进行分析,并动态响应生成一系列动作,最终导航到目标位置.视觉语言导航有着广泛的应用前景,该任务近年来在多模态研究领域受到了广泛关注.不同于视觉问答和图像描述生成等传统多模态任务,视觉语言导航在多模态融合和推理方面,更具有挑战性.然而由于传统模仿学习的缺陷和数据稀缺的现象,模型面临着泛化能力不足的问题.系统地回顾了视觉语言导航的研究进展,首先对于视觉语言导航的数据集和基础模型进行简要介绍;然后全面地介绍视觉语言导航任务中的代表性模型方法,包括数据增强、搜索策略、训练方法和动作空间四个方面;最后根据不同数据集下的实验,分析比较模型的优势和不足,并对未来可能的研究方向进行了展望.
ISSN:	0254-4156
DOI:	10.16383/j.aas.c210352