视觉Transformer研究的关键问题:现状及展望

Transformer所具备的长距离建模能力和并行计算能力使其在自然语言处理领域取得了巨大成功并逐步拓展至计算机视觉等领域.本文以分类任务为切入,介绍了典型视觉Transformer的基本原理和结构,并分析了 Transformer与卷积神经网络在连接范围、权重动态性和位置表示能力三方面的区别与联系;同时围绕计算代价、性能提升、训练优化以及结构设计四个方面总结了视觉Transformer研究中的关键问题以及研究进展;并提出了视觉Transformer的一般性框架;然后针对检测和分割两个领域,介绍了视觉Transformer在特征学习、结果产生和真值分配等方面给上层视觉模型设计带来的启发和改变;...

Full description

Saved in:
Bibliographic Details
Published in自动化学报 Vol. 48; no. 4; pp. 957 - 979
Main Authors 田永林, 王雨桐, 王建功, 王晓, 王飞跃
Format Journal Article
LanguageChinese
Published 青岛智能产业技术研究院 青岛266000 01.04.2022
中国科学技术大学自动化系 合肥230027
中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190
Subjects
Online AccessGet full text
ISSN0254-4156
DOI10.16383/j.aas.c220027

Cover

Abstract Transformer所具备的长距离建模能力和并行计算能力使其在自然语言处理领域取得了巨大成功并逐步拓展至计算机视觉等领域.本文以分类任务为切入,介绍了典型视觉Transformer的基本原理和结构,并分析了 Transformer与卷积神经网络在连接范围、权重动态性和位置表示能力三方面的区别与联系;同时围绕计算代价、性能提升、训练优化以及结构设计四个方面总结了视觉Transformer研究中的关键问题以及研究进展;并提出了视觉Transformer的一般性框架;然后针对检测和分割两个领域,介绍了视觉Transformer在特征学习、结果产生和真值分配等方面给上层视觉模型设计带来的启发和改变;并对视觉Transformer未来发展方向进行了展望.
AbstractList Transformer所具备的长距离建模能力和并行计算能力使其在自然语言处理领域取得了巨大成功并逐步拓展至计算机视觉等领域.本文以分类任务为切入,介绍了典型视觉Transformer的基本原理和结构,并分析了 Transformer与卷积神经网络在连接范围、权重动态性和位置表示能力三方面的区别与联系;同时围绕计算代价、性能提升、训练优化以及结构设计四个方面总结了视觉Transformer研究中的关键问题以及研究进展;并提出了视觉Transformer的一般性框架;然后针对检测和分割两个领域,介绍了视觉Transformer在特征学习、结果产生和真值分配等方面给上层视觉模型设计带来的启发和改变;并对视觉Transformer未来发展方向进行了展望.
Author 田永林
王飞跃
王建功
王晓
王雨桐
AuthorAffiliation 中国科学技术大学自动化系 合肥230027;中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190;青岛智能产业技术研究院 青岛266000
AuthorAffiliation_xml – name: 中国科学技术大学自动化系 合肥230027;中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190;青岛智能产业技术研究院 青岛266000
Author_FL TIAN Yong-Lin
WANG Jian-Gong
WANG Xiao
WANG Fei-Yue
WANG Yu-Tong
Author_FL_xml – sequence: 1
  fullname: TIAN Yong-Lin
– sequence: 2
  fullname: WANG Yu-Tong
– sequence: 3
  fullname: WANG Jian-Gong
– sequence: 4
  fullname: WANG Xiao
– sequence: 5
  fullname: WANG Fei-Yue
Author_xml – sequence: 1
  fullname: 田永林
– sequence: 2
  fullname: 王雨桐
– sequence: 3
  fullname: 王建功
– sequence: 4
  fullname: 王晓
– sequence: 5
  fullname: 王飞跃
BookMark eNotj7tKA0EYRqeIYIxpfQS7XWf-ueyunQRvELCJdZirGnQWdhDFWgVTmCaiqIXYBJugCHmjdZO3cEGrrzmcw7eCGj73FqE1gmMiaEo3BrGUIdYAGEPSQE0MnEWMcLGM2iGcKIwJwZAR0kRiPrmdT-56hfTB5cWZLaq3cfUxq56vy5vvxXi6eJwu3p82q_vPajgrR8Py6-Hn9WUVLTl5Gmz7f1vocGe719mLuge7-52tbhQIJhCl3AIHZaQ1WlLDQVNQzjBDOSOpFZxlaaaEdgl11qlEsMRZpp3JNMPYONpC63_eC-md9Ef9QX5e-LrYvzLHlwpw_bEmgf4C84NY0w
ContentType Journal Article
Copyright Copyright © Wanfang Data Co. Ltd. All Rights Reserved.
Copyright_xml – notice: Copyright © Wanfang Data Co. Ltd. All Rights Reserved.
DBID 2B.
4A8
92I
93N
PSX
TCJ
DOI 10.16383/j.aas.c220027
DatabaseName Wanfang Data Journals - Hong Kong
WANFANG Data Centre
Wanfang Data Journals
万方数据期刊 - 香港版
China Online Journals (COJ)
China Online Journals (COJ)
DatabaseTitleList
DeliveryMethod fulltext_linktorsrc
Discipline Engineering
DocumentTitle_FL Key Problems and Progress of Vision Transformers:The State of the Art and Prospects
EndPage 979
ExternalDocumentID zdhxb202204002
GrantInformation_xml – fundername: (广东省重点领域研发计划); (广州市智能网联汽车重大科技专项); (国家自然科学基金); (英特尔智能网联汽车大学合作研究中心资助)
  funderid: (广东省重点领域研发计划); (广州市智能网联汽车重大科技专项); (国家自然科学基金); (英特尔智能网联汽车大学合作研究中心资助)
GroupedDBID --K
-0Y
.~1
0R~
1B1
1~.
1~5
2B.
4.4
457
4A8
4G.
5GY
5VS
5XA
5XJ
7-5
71M
8P~
92H
92I
93N
AAIKJ
AALRI
AAQFI
AAXUO
ABJNI
ABWVN
ACGFS
ACRPL
ADEZE
ADNMO
ADTZH
AECPX
AEKER
AFTJW
AGHFR
AGYEJ
AITUG
ALMA_UNASSIGNED_HOLDINGS
BLXMC
CCEZO
CS3
CUBFJ
CW9
EBS
EJD
EO8
EO9
EP2
EP3
FDB
FEDTE
FNPLU
GBLVA
HVGLF
HZ~
IHE
J1W
JJJVA
M41
MO0
N9A
O-L
O9-
OAUVE
OZT
P-8
P-9
P2P
PC.
PSX
Q38
ROL
RPZ
SDF
SDG
SES
TCJ
TGT
U1G
U5S
ID FETCH-LOGICAL-s1012-85e252bdaedca3d52c32bfd4d35418e654989b6cf73fefb7647fe4cfd9c400df3
ISSN 0254-4156
IngestDate Thu May 29 04:10:30 EDT 2025
IsPeerReviewed true
IsScholarly true
Issue 4
Keywords 视觉Transformer
图像分割
图像分类
计算机视觉
目标检测
Language Chinese
LinkModel OpenURL
MergedId FETCHMERGED-LOGICAL-s1012-85e252bdaedca3d52c32bfd4d35418e654989b6cf73fefb7647fe4cfd9c400df3
PageCount 23
ParticipantIDs wanfang_journals_zdhxb202204002
PublicationCentury 2000
PublicationDate 2022-04-01
PublicationDateYYYYMMDD 2022-04-01
PublicationDate_xml – month: 04
  year: 2022
  text: 2022-04-01
  day: 01
PublicationDecade 2020
PublicationTitle 自动化学报
PublicationTitle_FL Acta Automatica Sinica
PublicationYear 2022
Publisher 青岛智能产业技术研究院 青岛266000
中国科学技术大学自动化系 合肥230027
中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190
Publisher_xml – name: 青岛智能产业技术研究院 青岛266000
– name: 中国科学技术大学自动化系 合肥230027
– name: 中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190
SSID ssib001102911
ssib006576350
ssib051375349
ssib007293330
ssj0059721
ssib007290157
ssib023646446
ssib005904210
Score 2.557019
SecondaryResourceType review_article
Snippet Transformer所具备的长距离建模能力和并行计算能力使其在自然语言处理领域取得了巨大成功并逐步拓展至计算机视觉等领域.本文以分类任务为切入,介绍了典型视觉Transformer的基本原理和结构,并分析了...
SourceID wanfang
SourceType Aggregation Database
StartPage 957
Title 视觉Transformer研究的关键问题:现状及展望
URI https://d.wanfangdata.com.cn/periodical/zdhxb202204002
Volume 48
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
link http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwnR27bhQxcBWSBgrEU7xJgSu0sLd-03kve0QIqC4oXbTeR1IdErlI6GpAIgU0QSCgQDQRTQRCyh8dl_sLZrx7OUc5iUdjzXrH47FnPQ-vH0FwSzLGbJQVIS1KGoK9rsKstFGYyVYO5oVZW-JG4UePxfIKe7DKV-dOtL1VS1t9eycfzNxX8j9ShTyQK-6S_QfJHhKFDIBBvpCChCH9KxmTVBEjiRITQHcnfihIIpXEREQzB2iSCAS0IQpyOFGcJJSkGhFM6gDZACYmWgEPiK9SkkQOMI4CFOwgDEDSIpqTVBDdJjrxvVxkRwE1hwbIRjkA0BwFs0SMwIL4ik9E7rhjrjaBaaIc7ZRo6aMAQypx7CaOriAG-IhmoACHCUkmPOjODBSgD4SoP_UBUfN0xQx-rK6uJaJjRzHGeutySBraSUmyRFKGjyACBBT2ct08FTUdZDqz5KGRjolvH68DPJooijw1DSF2iGGwb1OY8sYO8wyEro_jbnwNXV-kc8yMgVKkzo5lGXyfMS6kkVODfbiMclBsPLfYMaiJwQ9ZiKXEtQoL95OHT8zUKwYnUntqnGvQ1J7XJzieSjh9lvhv3fsZDs-UTqNMvHJAeLMIvEUh5sUovnaAOB4I5aY2m45pzkrFRt090iS3Ua5XZb11z6frnglON8HYoqlH1tlgbrBxLjjlHdF5PhAHu68Odl9742r0ZWf0bX_08cXw5c_xzt74_d7464d7ozffR9v7w7fbwx_vfn3-dCFY6aTd9nLY3DUSbuIJd6HiZcxjW2RlkWe04HFOY1sVrKCctVQpONNKW5FXklZlZaVgsipZXhU6h74vKnoxmO897ZWXgkWda8srJmyVtVgOEUApoMO4phj8l5ReDm42rV5rdMnm2lFJXvkjxtXg5HRAXAvm-8-2yuvgHfftjUb6vwEfaokU
linkProvider Elsevier
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%E8%A7%86%E8%A7%89Transformer%E7%A0%94%E7%A9%B6%E7%9A%84%E5%85%B3%E9%94%AE%E9%97%AE%E9%A2%98%3A%E7%8E%B0%E7%8A%B6%E5%8F%8A%E5%B1%95%E6%9C%9B&rft.jtitle=%E8%87%AA%E5%8A%A8%E5%8C%96%E5%AD%A6%E6%8A%A5&rft.au=%E7%94%B0%E6%B0%B8%E6%9E%97&rft.au=%E7%8E%8B%E9%9B%A8%E6%A1%90&rft.au=%E7%8E%8B%E5%BB%BA%E5%8A%9F&rft.au=%E7%8E%8B%E6%99%93&rft.date=2022-04-01&rft.pub=%E9%9D%92%E5%B2%9B%E6%99%BA%E8%83%BD%E4%BA%A7%E4%B8%9A%E6%8A%80%E6%9C%AF%E7%A0%94%E7%A9%B6%E9%99%A2+%E9%9D%92%E5%B2%9B266000&rft.issn=0254-4156&rft.volume=48&rft.issue=4&rft.spage=957&rft.epage=979&rft_id=info:doi/10.16383%2Fj.aas.c220027&rft.externalDocID=zdhxb202204002
thumbnail_s http://utb.summon.serialssolutions.com/2.0.0/image/custom?url=http%3A%2F%2Fwww.wanfangdata.com.cn%2Fimages%2FPeriodicalImages%2Fzdhxb%2Fzdhxb.jpg