基于卷积神经网络和Transformer的视频行人再识别

TP391; 为了解决视频行人再识别领域仅使用卷积神经网络进行行人特征提取效果不佳的问题,提出一种基于卷积神经网络和Transformer的ResTNet(ResNet and Transformer network)网络模型.ResTNet利用ResNet50网络得到局部特征,令中间层输出作为Transformer的先验知识输入.在Transformer分支中不断缩小特征图尺寸,扩大感受野,充分挖掘局部特征之间的关系,生成行人的全局特征,同时利用移位窗口方法减少模型计算量.在大规模MARS数据集上,Rank-1和mAP分别达到 86.8％和 80.3％,比基准分别增加了 3.8％和 3.3％...

Full description

Saved in:

Bibliographic Details
Published in	河南理工大学学报（自然科学版） Vol. 42; no. 6; pp. 149 - 156
Main Authors	赵彦如, 牛东杰, 孙东红, 杨蕙萌
Format	Journal Article
Language	Chinese
Published	河南理工大学机械与动力工程学院,河南焦作 454000 01.11.2023
Subjects	卷积神经网络 Transformer global fea-ture 视频行人再识别 video person re-identification convolutional neural network local feature 全局特征局部特征
Online Access	Get full text

Cover

Loading…

More Information
Summary:	TP391; 为了解决视频行人再识别领域仅使用卷积神经网络进行行人特征提取效果不佳的问题,提出一种基于卷积神经网络和Transformer的ResTNet(ResNet and Transformer network)网络模型.ResTNet利用ResNet50网络得到局部特征,令中间层输出作为Transformer的先验知识输入.在Transformer分支中不断缩小特征图尺寸,扩大感受野,充分挖掘局部特征之间的关系,生成行人的全局特征,同时利用移位窗口方法减少模型计算量.在大规模MARS数据集上,Rank-1和mAP分别达到 86.8％和 80.3％,比基准分别增加了 3.8％和 3.3％,在 2个小规模数据集上也取得了良好效果.在几大数据集上的大量实验表明,本文方法能增强行人识别的鲁棒性,有效提高行人再识别的准确率.
ISSN:	1673-9787
DOI:	10.16186/j.cnki.1673-9787.2021120013