基于卷积神经网络和Transformer的视频行人再识别
TP391; 为了解决视频行人再识别领域仅使用卷积神经网络进行行人特征提取效果不佳的问题,提出一种基于卷积神经网络和Transformer的ResTNet(ResNet and Transformer network)网络模型.ResTNet利用ResNet50网络得到局部特征,令中间层输出作为Transformer的先验知识输入.在Transformer分支中不断缩小特征图尺寸,扩大感受野,充分挖掘局部特征之间的关系,生成行人的全局特征,同时利用移位窗口方法减少模型计算量.在大规模MARS数据集上,Rank-1和mAP分别达到 86.8%和 80.3%,比基准分别增加了 3.8%和 3.3%...
Saved in:
Published in | 河南理工大学学报(自然科学版) Vol. 42; no. 6; pp. 149 - 156 |
---|---|
Main Authors | , , , |
Format | Journal Article |
Language | Chinese |
Published |
河南理工大学 机械与动力工程学院,河南 焦作 454000
01.11.2023
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | TP391; 为了解决视频行人再识别领域仅使用卷积神经网络进行行人特征提取效果不佳的问题,提出一种基于卷积神经网络和Transformer的ResTNet(ResNet and Transformer network)网络模型.ResTNet利用ResNet50网络得到局部特征,令中间层输出作为Transformer的先验知识输入.在Transformer分支中不断缩小特征图尺寸,扩大感受野,充分挖掘局部特征之间的关系,生成行人的全局特征,同时利用移位窗口方法减少模型计算量.在大规模MARS数据集上,Rank-1和mAP分别达到 86.8%和 80.3%,比基准分别增加了 3.8%和 3.3%,在 2个小规模数据集上也取得了良好效果.在几大数据集上的大量实验表明,本文方法能增强行人识别的鲁棒性,有效提高行人再识别的准确率. |
---|---|
ISSN: | 1673-9787 |
DOI: | 10.16186/j.cnki.1673-9787.2021120013 |