基于反事实思考的视觉问答方法
TP391; 视觉问答是一项结合计算机视觉和自然语言处理的多模态任务,具有极大的挑战性.然而,目前的视觉问答模型存在着严重的语言偏见问题,对其鲁棒性有负面影响.以往的研究主要集中在利用生成反事实样本来辅助模型解决语言偏见.然而,这些研究忽略了分析反事实样本与原始样本的预测差异以及关键特征与非关键特征之间的两两差异.文中通过建立反事实思考流程,结合因果推理与对比学习,使模型能够区分原始样本、事实样本和反事实样本.基于此,提出了一种基于反事实样本的对比学习范式.通过对比3类样本对的特征差异和预测差异,减小了模型的语言偏见.在VQA-CP v2等数据集上的实验证明了所提方法的有效性.与CL-VQA方...
Saved in:
Published in | 计算机科学 Vol. 49; no. 12; pp. 229 - 235 |
---|---|
Main Authors | , , , , , , |
Format | Journal Article |
Language | Chinese |
Published |
电子科技大学信息与通信工程学院 成都611730
2022
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | TP391; 视觉问答是一项结合计算机视觉和自然语言处理的多模态任务,具有极大的挑战性.然而,目前的视觉问答模型存在着严重的语言偏见问题,对其鲁棒性有负面影响.以往的研究主要集中在利用生成反事实样本来辅助模型解决语言偏见.然而,这些研究忽略了分析反事实样本与原始样本的预测差异以及关键特征与非关键特征之间的两两差异.文中通过建立反事实思考流程,结合因果推理与对比学习,使模型能够区分原始样本、事实样本和反事实样本.基于此,提出了一种基于反事实样本的对比学习范式.通过对比3类样本对的特征差异和预测差异,减小了模型的语言偏见.在VQA-CP v2等数据集上的实验证明了所提方法的有效性.与CL-VQA方法相比,所提方法的整体精度提高了0.19%,平均精度提高了0.89%,尤其是Num精度提高了2.6%.相比CSSVQA方法,所提方法的鲁棒性辅助指标Gap从0.96提高到了0.45. |
---|---|
ISSN: | 1002-137X |
DOI: | 10.11896/jsjkx.220600038 |