3分支多层次Transformer特征交互的RGB-D显著性目标检测

TP389.1; RGB深度图像(RGB-D)显著性目标检测是计算机视觉领域的研究任务之一,很多模型在简单场景下取得了较好的检测效果,却无法有效地处理多目标、深度图质量低下及显著性目标色彩与背景相似等复杂场景.因此,本文提出一种3分支多层次Transformer特征交互的RGB-D显著性目标检测模型.首先,提出一个跨模态坐标注意力模块,该模块通过采用坐标注意力抑制RGB图像和深度图的噪声信息,从而提取出更为显著的特征信息用于后续解码.其次,通过特征融合模块将高层的3层特征图调整到相同的分辨率送入Transformer层,有效地获取远距离显著性目标之间的关联关系和整幅图像的全局信息.然后,提出一...

Full description

Saved in:
Bibliographic Details
Published in工程科学与技术 Vol. 55; no. 6; pp. 245 - 256
Main Authors 孟令兵, 袁梦雅, 时雪涵, 刘晴晴, 程菲, 黎玲利, 何术锋
Format Journal Article
LanguageChinese
Published 安徽信息工程学院计算机与软件工程学院,安徽芜湖 241199%安徽信息工程学院计算机与软件工程学院,安徽芜湖 241199 2023
安徽信息工程学院电气与电子工程学院,安徽芜湖 241199%安徽信息工程学院计算机与软件工程学院,安徽芜湖 241199
杭州电子科技大学管理学院,浙江杭州 310018%黑龙江大学计算机科学与技术学院,黑龙江哈尔滨 150006%南京水利科学研究院生态环境研究所,江苏南京 210017
Subjects
Online AccessGet full text
ISSN2096-3246
DOI10.15961/j.jsuese.202200555

Cover

Loading…
More Information
Summary:TP389.1; RGB深度图像(RGB-D)显著性目标检测是计算机视觉领域的研究任务之一,很多模型在简单场景下取得了较好的检测效果,却无法有效地处理多目标、深度图质量低下及显著性目标色彩与背景相似等复杂场景.因此,本文提出一种3分支多层次Transformer特征交互的RGB-D显著性目标检测模型.首先,提出一个跨模态坐标注意力模块,该模块通过采用坐标注意力抑制RGB图像和深度图的噪声信息,从而提取出更为显著的特征信息用于后续解码.其次,通过特征融合模块将高层的3层特征图调整到相同的分辨率送入Transformer层,有效地获取远距离显著性目标之间的关联关系和整幅图像的全局信息.然后,提出一个多层次特征交互模块,该模块有效地聚合多层次信息进行特征交互,从而能够更精准地定位显著性目标的位置,同时对显著性目标的边界进行细化.最后,设计一个密集扩张特征细化模块,利用密集扩张卷积获取丰富的多尺度特征,有效地应对显著性目标数量和尺寸变化.将模型在5个公开的基准数据集上与19种主流模型相比,实验结果表明:本文方法在多个测评指标上有较好的提升效果,提高了在特定复杂场景下的检测精度;从P-R(precision-recall)曲线、F-measure曲线和显著图也可以直观看出,本文方法取得了较好的检测结果,生成的显著图更完整、清晰,相比其他模型更加接近真值图.
ISSN:2096-3246
DOI:10.15961/j.jsuese.202200555