视觉Transformer研究的关键问题:现状及展望
Transformer所具备的长距离建模能力和并行计算能力使其在自然语言处理领域取得了巨大成功并逐步拓展至计算机视觉等领域.本文以分类任务为切入,介绍了典型视觉Transformer的基本原理和结构,并分析了 Transformer与卷积神经网络在连接范围、权重动态性和位置表示能力三方面的区别与联系;同时围绕计算代价、性能提升、训练优化以及结构设计四个方面总结了视觉Transformer研究中的关键问题以及研究进展;并提出了视觉Transformer的一般性框架;然后针对检测和分割两个领域,介绍了视觉Transformer在特征学习、结果产生和真值分配等方面给上层视觉模型设计带来的启发和改变;...
Saved in:
Published in | 自动化学报 Vol. 48; no. 4; pp. 957 - 979 |
---|---|
Main Authors | , , , , |
Format | Journal Article |
Language | Chinese |
Published |
青岛智能产业技术研究院 青岛266000
01.04.2022
中国科学技术大学自动化系 合肥230027 中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190 |
Subjects | |
Online Access | Get full text |
ISSN | 0254-4156 |
DOI | 10.16383/j.aas.c220027 |
Cover
Abstract | Transformer所具备的长距离建模能力和并行计算能力使其在自然语言处理领域取得了巨大成功并逐步拓展至计算机视觉等领域.本文以分类任务为切入,介绍了典型视觉Transformer的基本原理和结构,并分析了 Transformer与卷积神经网络在连接范围、权重动态性和位置表示能力三方面的区别与联系;同时围绕计算代价、性能提升、训练优化以及结构设计四个方面总结了视觉Transformer研究中的关键问题以及研究进展;并提出了视觉Transformer的一般性框架;然后针对检测和分割两个领域,介绍了视觉Transformer在特征学习、结果产生和真值分配等方面给上层视觉模型设计带来的启发和改变;并对视觉Transformer未来发展方向进行了展望. |
---|---|
AbstractList | Transformer所具备的长距离建模能力和并行计算能力使其在自然语言处理领域取得了巨大成功并逐步拓展至计算机视觉等领域.本文以分类任务为切入,介绍了典型视觉Transformer的基本原理和结构,并分析了 Transformer与卷积神经网络在连接范围、权重动态性和位置表示能力三方面的区别与联系;同时围绕计算代价、性能提升、训练优化以及结构设计四个方面总结了视觉Transformer研究中的关键问题以及研究进展;并提出了视觉Transformer的一般性框架;然后针对检测和分割两个领域,介绍了视觉Transformer在特征学习、结果产生和真值分配等方面给上层视觉模型设计带来的启发和改变;并对视觉Transformer未来发展方向进行了展望. |
Author | 田永林 王飞跃 王建功 王晓 王雨桐 |
AuthorAffiliation | 中国科学技术大学自动化系 合肥230027;中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190;青岛智能产业技术研究院 青岛266000 |
AuthorAffiliation_xml | – name: 中国科学技术大学自动化系 合肥230027;中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190;青岛智能产业技术研究院 青岛266000 |
Author_FL | TIAN Yong-Lin WANG Jian-Gong WANG Xiao WANG Fei-Yue WANG Yu-Tong |
Author_FL_xml | – sequence: 1 fullname: TIAN Yong-Lin – sequence: 2 fullname: WANG Yu-Tong – sequence: 3 fullname: WANG Jian-Gong – sequence: 4 fullname: WANG Xiao – sequence: 5 fullname: WANG Fei-Yue |
Author_xml | – sequence: 1 fullname: 田永林 – sequence: 2 fullname: 王雨桐 – sequence: 3 fullname: 王建功 – sequence: 4 fullname: 王晓 – sequence: 5 fullname: 王飞跃 |
BookMark | eNotj7tKA0EYRqeIYIxpfQS7XWf-ueyunQRvELCJdZirGnQWdhDFWgVTmCaiqIXYBJugCHmjdZO3cEGrrzmcw7eCGj73FqE1gmMiaEo3BrGUIdYAGEPSQE0MnEWMcLGM2iGcKIwJwZAR0kRiPrmdT-56hfTB5cWZLaq3cfUxq56vy5vvxXi6eJwu3p82q_vPajgrR8Py6-Hn9WUVLTl5Gmz7f1vocGe719mLuge7-52tbhQIJhCl3AIHZaQ1WlLDQVNQzjBDOSOpFZxlaaaEdgl11qlEsMRZpp3JNMPYONpC63_eC-md9Ef9QX5e-LrYvzLHlwpw_bEmgf4C84NY0w |
ContentType | Journal Article |
Copyright | Copyright © Wanfang Data Co. Ltd. All Rights Reserved. |
Copyright_xml | – notice: Copyright © Wanfang Data Co. Ltd. All Rights Reserved. |
DBID | 2B. 4A8 92I 93N PSX TCJ |
DOI | 10.16383/j.aas.c220027 |
DatabaseName | Wanfang Data Journals - Hong Kong WANFANG Data Centre Wanfang Data Journals 万方数据期刊 - 香港版 China Online Journals (COJ) China Online Journals (COJ) |
DatabaseTitleList | |
DeliveryMethod | fulltext_linktorsrc |
Discipline | Engineering |
DocumentTitle_FL | Key Problems and Progress of Vision Transformers:The State of the Art and Prospects |
EndPage | 979 |
ExternalDocumentID | zdhxb202204002 |
GrantInformation_xml | – fundername: (广东省重点领域研发计划); (广州市智能网联汽车重大科技专项); (国家自然科学基金); (英特尔智能网联汽车大学合作研究中心资助) funderid: (广东省重点领域研发计划); (广州市智能网联汽车重大科技专项); (国家自然科学基金); (英特尔智能网联汽车大学合作研究中心资助) |
GroupedDBID | --K -0Y .~1 0R~ 1B1 1~. 1~5 2B. 4.4 457 4A8 4G. 5GY 5VS 5XA 5XJ 7-5 71M 8P~ 92H 92I 93N AAIKJ AALRI AAQFI AAXUO ABJNI ABWVN ACGFS ACRPL ADEZE ADNMO ADTZH AECPX AEKER AFTJW AGHFR AGYEJ AITUG ALMA_UNASSIGNED_HOLDINGS BLXMC CCEZO CS3 CUBFJ CW9 EBS EJD EO8 EO9 EP2 EP3 FDB FEDTE FNPLU GBLVA HVGLF HZ~ IHE J1W JJJVA M41 MO0 N9A O-L O9- OAUVE OZT P-8 P-9 P2P PC. PSX Q38 ROL RPZ SDF SDG SES TCJ TGT U1G U5S |
ID | FETCH-LOGICAL-s1012-85e252bdaedca3d52c32bfd4d35418e654989b6cf73fefb7647fe4cfd9c400df3 |
ISSN | 0254-4156 |
IngestDate | Thu May 29 04:10:30 EDT 2025 |
IsPeerReviewed | true |
IsScholarly | true |
Issue | 4 |
Keywords | 视觉Transformer 图像分割 图像分类 计算机视觉 目标检测 |
Language | Chinese |
LinkModel | OpenURL |
MergedId | FETCHMERGED-LOGICAL-s1012-85e252bdaedca3d52c32bfd4d35418e654989b6cf73fefb7647fe4cfd9c400df3 |
PageCount | 23 |
ParticipantIDs | wanfang_journals_zdhxb202204002 |
PublicationCentury | 2000 |
PublicationDate | 2022-04-01 |
PublicationDateYYYYMMDD | 2022-04-01 |
PublicationDate_xml | – month: 04 year: 2022 text: 2022-04-01 day: 01 |
PublicationDecade | 2020 |
PublicationTitle | 自动化学报 |
PublicationTitle_FL | Acta Automatica Sinica |
PublicationYear | 2022 |
Publisher | 青岛智能产业技术研究院 青岛266000 中国科学技术大学自动化系 合肥230027 中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190 |
Publisher_xml | – name: 青岛智能产业技术研究院 青岛266000 – name: 中国科学技术大学自动化系 合肥230027 – name: 中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190%中国科学院自动化研究所复杂系统管理与控制国家重点实验室 北京100190 |
SSID | ssib001102911 ssib006576350 ssib051375349 ssib007293330 ssj0059721 ssib007290157 ssib023646446 ssib005904210 |
Score | 2.557019 |
SecondaryResourceType | review_article |
Snippet | Transformer所具备的长距离建模能力和并行计算能力使其在自然语言处理领域取得了巨大成功并逐步拓展至计算机视觉等领域.本文以分类任务为切入,介绍了典型视觉Transformer的基本原理和结构,并分析了... |
SourceID | wanfang |
SourceType | Aggregation Database |
StartPage | 957 |
Title | 视觉Transformer研究的关键问题:现状及展望 |
URI | https://d.wanfangdata.com.cn/periodical/zdhxb202204002 |
Volume | 48 |
hasFullText | 1 |
inHoldings | 1 |
isFullTextHit | |
isPrint | |
link | http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwnR27bhQxcBWSBgrEU7xJgSu0sLd-03kve0QIqC4oXbTeR1IdErlI6GpAIgU0QSCgQDQRTQRCyh8dl_sLZrx7OUc5iUdjzXrH47FnPQ-vH0FwSzLGbJQVIS1KGoK9rsKstFGYyVYO5oVZW-JG4UePxfIKe7DKV-dOtL1VS1t9eycfzNxX8j9ShTyQK-6S_QfJHhKFDIBBvpCChCH9KxmTVBEjiRITQHcnfihIIpXEREQzB2iSCAS0IQpyOFGcJJSkGhFM6gDZACYmWgEPiK9SkkQOMI4CFOwgDEDSIpqTVBDdJjrxvVxkRwE1hwbIRjkA0BwFs0SMwIL4ik9E7rhjrjaBaaIc7ZRo6aMAQypx7CaOriAG-IhmoACHCUkmPOjODBSgD4SoP_UBUfN0xQx-rK6uJaJjRzHGeutySBraSUmyRFKGjyACBBT2ct08FTUdZDqz5KGRjolvH68DPJooijw1DSF2iGGwb1OY8sYO8wyEro_jbnwNXV-kc8yMgVKkzo5lGXyfMS6kkVODfbiMclBsPLfYMaiJwQ9ZiKXEtQoL95OHT8zUKwYnUntqnGvQ1J7XJzieSjh9lvhv3fsZDs-UTqNMvHJAeLMIvEUh5sUovnaAOB4I5aY2m45pzkrFRt090iS3Ua5XZb11z6frnglON8HYoqlH1tlgbrBxLjjlHdF5PhAHu68Odl9742r0ZWf0bX_08cXw5c_xzt74_d7464d7ozffR9v7w7fbwx_vfn3-dCFY6aTd9nLY3DUSbuIJd6HiZcxjW2RlkWe04HFOY1sVrKCctVQpONNKW5FXklZlZaVgsipZXhU6h74vKnoxmO897ZWXgkWda8srJmyVtVgOEUApoMO4phj8l5ReDm42rV5rdMnm2lFJXvkjxtXg5HRAXAvm-8-2yuvgHfftjUb6vwEfaokU |
linkProvider | Elsevier |
openUrl | ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%E8%A7%86%E8%A7%89Transformer%E7%A0%94%E7%A9%B6%E7%9A%84%E5%85%B3%E9%94%AE%E9%97%AE%E9%A2%98%3A%E7%8E%B0%E7%8A%B6%E5%8F%8A%E5%B1%95%E6%9C%9B&rft.jtitle=%E8%87%AA%E5%8A%A8%E5%8C%96%E5%AD%A6%E6%8A%A5&rft.au=%E7%94%B0%E6%B0%B8%E6%9E%97&rft.au=%E7%8E%8B%E9%9B%A8%E6%A1%90&rft.au=%E7%8E%8B%E5%BB%BA%E5%8A%9F&rft.au=%E7%8E%8B%E6%99%93&rft.date=2022-04-01&rft.pub=%E9%9D%92%E5%B2%9B%E6%99%BA%E8%83%BD%E4%BA%A7%E4%B8%9A%E6%8A%80%E6%9C%AF%E7%A0%94%E7%A9%B6%E9%99%A2+%E9%9D%92%E5%B2%9B266000&rft.issn=0254-4156&rft.volume=48&rft.issue=4&rft.spage=957&rft.epage=979&rft_id=info:doi/10.16383%2Fj.aas.c220027&rft.externalDocID=zdhxb202204002 |
thumbnail_s | http://utb.summon.serialssolutions.com/2.0.0/image/custom?url=http%3A%2F%2Fwww.wanfangdata.com.cn%2Fimages%2FPeriodicalImages%2Fzdhxb%2Fzdhxb.jpg |