基于多模态融合的城市道路场景视频描述模型研究
TP391.41; 城市道路视频描述存在仅考虑视觉信息而忽视了同样重要的音频信息的问题,多模态融合算法是解决此问题的方案之一.针对现有基于Transformer的多模态融合算法都存在着模态之间融合性能低、计算复杂度高的问题,为了提高多模态信息之间的交互性,提出了 一种新的基于Transformer的视频描述模型多模态注意力瓶颈视频描述(multimodal attention bottleneck for video captioning,M AB VC).首先使用预训练好的 I3 D 和 VGGish 网络提取视频的视觉和音频特征并将提取好的特征输入到Transformer模型当中,然后解码...
Saved in:
Published in | 计算机应用研究 Vol. 40; no. 2; pp. 607 - 640 |
---|---|
Main Authors | , , , , , |
Format | Journal Article |
Language | Chinese |
Published |
北京联合大学北京市信息服务工程重点实验室,北京100101
2023
北京联合大学脑与认知智能北京实验室,北京100101 |
Subjects | |
Online Access | Get full text |
Cover
Loading…
Be the first to leave a comment!