百科问答小站 logo
百科问答小站 font logo



如何看待swin transformer成为ICCV2021的 best paper? 第1页

  

user avatar   rainstorm-53 网友的相关建议: 
      

作为作者之一答一波。

首先特别感谢所有朋友的鼓励和批评,我认真看了每一条回复和评论,对所有内容我们都会照单全收,从中吸取养分,提升自己。

在技术层面,其他很多回答、还有之前的问题中已经讨论了很多(比如在之前这个问题中zhihu.com/question/4374)。在这里,我想提供一个不同的角度,主要是讲讲从我来MSRA这三四年间,有哪些东西让我受益匪浅、飞速提升,从而有机会做出更好的工作:

1. 传承。从孙老大、恺明、夷晨、季峰、祥雨、锡洲等等,到胡瀚、张拯和我,在组内传承的是科研taste的培养和科研素质的训练,包括如何产生一个好idea并把它做work、内部讨论时平等激烈乃至对工作challenge到极致、对实验solid程度的近乎苛求、对写作逻辑与细节的把控和质量的要求等等。这个过程像是model distillation,但因为每个student model的架构不同(每个人天赋不同),最终会衍生出不同的版本,每个人擅长的地方也不全相同。因为这个传承没有断掉,使得我们可以再次得到充分的科研训练,受益匪浅、提升巨大。

2. hands on和参与度。即较为senior的科研人员依然能够依然非常hands on和专注地做科研工作,从想idea、写code、对实验的推进到论文的写作,参与度极高,这对提高文章的质量至关重要。就像 @胡瀚在回答中提及的,Swin里的每个作者都对文章有非常重要的贡献,还有比如19年胡瀚博士毕业已经第5年,依然独自完成了local relation block的c++ kernel实现,听说恺明、祥雨现如今还在自己写code等等。如果要追求工作的质量,有很强科研能力的人充分的参与,是不可或缺的一个部分,我们也因此受益。

3. 自由平等的氛围和鼓励合作。同一组里,经验丰富的研究员们和学生们亲密无间的合作,使得skill set可以互相补足,对工作质量也是有质的提升。俗话说三个臭皮匠,顶个诸葛亮,如果有三个互相信任、互相支持、心无杂念且目标明确的诸葛亮,可以做的事情可想而知。除此之外,和其他方向的很多同事交流的过程中能学到非常多东西,这就像是在做model ensemble的时候,不同模型在同样强的情况下,差异越大效果越好。

最后希望未来华人在计算机视觉、泛人工智能、乃至整个科学领域都能够有越来越多和越来越高的成就,共勉。


user avatar   board-well 网友的相关建议: 
      

从论文的另一个作者han hu老师的角度说一下。首先恭喜胡老师作为作者之一的文章拿到了如此之高的认可。有些初学者(包括刚入门时期的我)有可能会认为这篇文章有点追transformer热点的感觉,而不知道别人的工作背后往往有多年积累和没有被如此广泛认可的阶段,作为researcher而言研究的历史路径其实是很漫长的。

胡老师去年来nju给过一个talk,我作为听众和胡老师有过一面之缘。talk的背景是那个时候ViT刚刚发布到openreview官网上还没中,CV领域的transformer热潮基本上还属于DETR,当时胡老师介绍了自己一系列通过attention/relation建模进行改进CNN的工作,例如RelationNet(++),Local Relation, GCNet, Disentangled Non-Local等等一系列成体系也很solid的工作。我印象很深的是胡老师提到了kaiming的non-local,认为自己的工作虽然也比较像,但是影响力毕竟没有non-local大。作为end-to-end object detector,RelationNet已经可以将NMS纳入网络一起训练,所以貌似DETR也不算是第一个end-to-end的object detector,虽然DETR应该是影响力最大的那个。后来又提到了近期提出的ViT,这种完全使用transformer(此处不讨论分patch再linear proj算不算conv)的大新闻毕竟总是可以引起更大的关注,我感觉胡老师当时好像略微有点失落的样子,他觉得自己CNN+attention的工作总是不能引起如此大的影响力。

过一阵子swin transformer系列的文章和code发布了以后,在网上又看了胡老师的新talk《Swin Transformer and 5 Reasons to use Transformer/Attention in Computer Vision》,这个时候我感觉胡老师已经all in transformer了,也算是多年的努力正好赶上了一个大家都关注这方面工作的时期。我猜胡老师最开始也没有想到能中marr prize,也许他觉得应该差不多能中一个oral,但是近期这篇文章受到这么大的关注,我觉得他应该是满意的。我作为一个硕士生,当然是没有能力也没有资格评价胡老师,只是作为一个很敬佩他的学生,表达一下对于胡老师多年solid工作的赞扬。无论这篇文章是best paper还是只是一个比较受关注的oral,我觉得背后的作者们都是实至名归,都是值得大家学习的。以后有机会的话会写一点technical report解读一下CNN+attention -> transformer这一系列的工作。


user avatar   e-yu-jia-de-shuai-qi-zhu 网友的相关建议: 
      

里面有很多作者的回答,也有很多非作者的大牛们的回答,基本就商业互吹吧。我就说个不一样的吧 ,从个人用的角度来看swin确确实实比较有cv的代表,虽然他不是第一篇将这个思想用在cv上面的,但是从他开始基本是一个转折点了,不管是速度还是精度。我私底下比较这一类的网络也很久了,用的数据集都是真实数据集,这应该也是大家希望看见的。我并没有延续源码中的数据增强,而是用适合自己数据场景的,我一般做的是分割任务,他和cnn的对比在真实结果上不看精度(真实数据集有很多标注可能有问题),swin的连通型更好,但是局部能力不如cnn,表现在漏提,尤其是在数据增强不怎么复杂的情况下,但是cnn对于新的场景呈现的分割mask容易出现栅格状,而swin表现就正常。当增大数据增强的复杂度时,swin可以提升很大的精度,这一点cnn提升就有限了。同时他后面也出来很多其他的改进,比如cswin等,我取出骨干原封不动替换swin后,训练同一批真实数据集,表现出来的收敛速度,以及精度都不如swin,也可能是数据集的原因,但是目前看swin确确实实是比较稳定的。

里面有些具体的细节我也做过很多实验,包括局部特征分析,还有采样倍数的影响。这里就不细说了,反正确确实实是个有影响力的工作。目前我的一些任务也对swin进行改进,对特殊分割任务的适应,表现来看和cnn各有优势,当然我也融合过两个骨干的网络,并不能很好的做到优势互补,并行比串行的要强点。

以上是真实数据集其中的标注可能有很多不规范的,相信这也是最贴近实际的。


user avatar   huo-hua-de-41 网友的相关建议: 
      

@胡瀚 研究员自己的ppt回答一下吧。简而言之,效果太好了。coco目标检测60.6mAP达到sota,分割52.4mAP达到sota。

ADE20K达到sota

视频动作识别达到sota

毫无疑问,这是未来十年计算机视觉发展的新起点。ICCV best paper实至名归。

参考文献:


user avatar   chen-jia-yu-65-36 网友的相关建议: 
      

首先恭喜Swin Transformer拿到2021 ICCV Best Paper!MSRA再一次拿到Best Paper,上一次可以追溯到ResNet,巧合的是,这一次也是通用骨干网络模型。

SwinT分析表明,Transformer从NLP迁移到CV上没有大放异彩主要有两点原因:1. 两个领域涉及的scale不同,NLP的scale是标准固定的,而CV的scale变化范围非常大。2. CV比起NLP需要更大的分辨率,而且CV中使用Transformer的计算复杂度是图像尺度的平方,这会导致计算量过于庞大。为了解决这两个问题,Swin Transformer相比之前的ViT做了两个改进:1.引入CNN中常用的层次化构建方式构建层次化Transformer 2.引入locality思想,对无重合的window区域内进行self-attention计算。

SwinT取长补短,结合CNN层次化建模、local聚合特征和Transformer建模global信息的优势,发挥出了巨大潜力。

我认为ICCV之所以将best paper颁给SwinT,是因为SwinT是第一个将CNN和Transformer的优势巧妙结合的工作,期待SwinT可以继续带领计算机视觉领域走向新的未来。

之前在SwinT发表的第一时间我就写过一篇解读,预言SwinT将会带领CV进入一个新时代。当时还有非常多的评论说不看好,结果best paper了,并且在SwinT出来的小半年时间,SwinT改进的模型已经统治了CV各大任务。

再多说一句,很多人都是事后诸葛亮,没有前人的工作怎么能启发后面一系列有意义的探索,看了后面的工作就以为自己比前人先进了?


user avatar   hu-han-80-57 网友的相关建议: 
      

作为作者之一来答一波

有生之年从没想过有机会解锁马尔奖,感觉自己很幸运!坦率讲,这次的奖项应该共同属于更早以及同期一起推进Transformer在CV中基本建模的很多工作,Swin Transformer很幸运被选中了作为其中的代表,感谢&感恩!

借此机会,再次推荐大家在CV中拥抱Transformer,现在NLP、CV和众多AI领域在建模和学习上越来越近,我认为这是一个好事情,如我们在论文里所说:希望Swin Transformer在各种视觉任务上的强大表现,能鼓励CV community拥抱Transformer以及视觉和语言更统一的建模。我们相信,这也会让我们离AGI更近一点点(尽管路途依旧遥远)。

为何Transformer在计算机视觉中如此受欢迎? - 微软亚洲研究院的文章 - 知乎 zhuanlan.zhihu.com/p/41

如何看待Transformer在CV上的应用前景,未来有可能替代CNN吗? - 胡瀚的回答 - 知乎 zhihu.com/question/4374

另一方面,Transformer来自于NLP,不得不说NLP过去几年引领了整个AI领域,他们过去几年的思考非常值得我们学习。当然,我们也不用妄自菲薄,事实上更早前的很多年里,更多的时候是CV在引领整个领域,包括预训练范式的提出和广泛应用、residual连接、normalization层等等很多技术都来自CV领域。现在正是我们CV领域的研究者们打开思路,想的更远更超前一些的时候。我对此很有信心,CV领域非常open-minded,能接受很多不同的方向以及风格迥异的作品,我相信这也是CV领域过去能长期保持活力和越来越壮大的重要原因。我也很期待我们CV领域的研究员们将来和NLP以及其它AI领域的朋友们一起前行,让AI变得更好,对整个社会产生更多有益的影响!

这里还分享一下论文背后的几个小故事(共一作者已经出现在很多地方了,因此我这里会特别涉及其他几位作者非常关键的贡献):

1) 关于名字。Arxiv放第一版时忘记了注明名字的由来,后来有朋友问起来才意识到。Swin是Shifted window的缩写,这也是投稿前最后一天才确定下来的名字。很长一段时间我们在考虑是否以hierarchical(H)作为名字,但最后觉得shifted window是这篇论文最有意思的一个设计,也是实现局部性和层次性的关键所在,于是决定在方法的名字里强调这个技术。Swin这个名字是合作者郭百宁的贡献。

2) Shifted window这个idea的由来和解释。其实决定做层次化Transformer的时候,几乎一瞬间就想到了这样一个设计。主要是因为有两年前在ICCV 2019上我们做的局部关系网络(Local Relation Networks)的基础,当时尝试了第一个完全基于自注意力而无需卷积的骨干网络,但发现基于滑动窗口的自注意单元对GPU显存访问不太友好,计算速度较慢不太实用,因此我们直接跳过了这个选项尝试了不重叠窗口的设计。而移位的思想则来自我4年前另一个没有发表工作的想法(当时因为做的不够solid所以放弃了),想不到在这里产生了妙用。而关于速度快的精确解释主要归功于合作者张拯,他提出了共享key集合是导致显存访问友好的关键所在。

3) 这篇论文更长久的贡献可能是让领域普遍意识到Transformer可以在广泛的视觉问题中超越CNN,以及为下游密集任务提供一个还不错的训练和测试菜谱(recipe)。在投稿前最后一个多月我们的主要精力就在于此,希望调一个Transformer时代靠谱的菜谱来。这方面韦毅轩做了大量贡献。说实话学生们被我们push得是比较狠的,这里表示抱歉,也要特别感谢所有学生们的理解。另外,毅轩在这个项目之前是和组里另一个同学姚朱亮一起在做和CLIP几乎一样的方法,做着做着就看到CLIP出来了。当然我们的目标有所不同,所以按照我们当时认知的高度,即使在某些场合证明了效果,也是做不出CLIP来的。

4) 在MSRA这几年,向代季峰、危夷晨、Steve Lin,以及读恺明大神和孙老大的文章学到了很多做问题的方式和写作方面的技巧:季峰的实验设计和作图,夷晨精密的行文逻辑,恺明讲story的能力,Steve Lin逻辑和语言上的gift,对我帮助很大很大。尽管如此,Swin的初稿经过Steve Lin和百宁加工后,还是焕然一新。

MSRA有两点我觉得是特别unique的,一个是自由的学术氛围,二是很好的传承。我个人就非常受益于此,向很多前辈们学习,得到了很多成长。也希望能将这些好的方法论传承下去,我想这也是MSRA能长青的重要原因之一。也希望MSRA能为公司,以及国内的工业和科研界培养越来越多的人才。

最后,还是例行给大家安利下MSRA的研究员职位以及我们的联合培养博士生项目,这些联培项目的博士生们在读博期间普遍都有非常好的成长,几位合作的联培博士同学都已经具备了很强的潜力,尽管还非常年轻,例如刘泽在中科大刚开始博三,宇桐和毅轩都分别是西交和清华博二的同学。对于有意联合培养项目的本科生,或者有意和微软亚洲研究院建立联培合作项目的学校,可以联系我或者相关的同事哈


user avatar   xiaohuzc 网友的相关建议: 
      

Swin transformer确实是很好的工作,我个人认为它的最大贡献是证明了transformer模型在cv任务上能够超过cnn,swin transformer的一个主要创新点是local self attention,但是网络本身设计太tricky,后面也有一些不错的改进工作,所以我个人看法它不会像resnet那样成为经典。



user avatar   qinlibo_nlp 网友的相关建议: 
      

谢邀。
没有看待,除了羡慕只有佩服和祝福。昨天下午还和一作ze liu深入讨论了NLP有多卷,CV有多卷,但是人家晚上就上岸了。

swin transformer四个审稿人都高度认可。我等需继续努力。




  

相关话题

  如何看待中南大学 92 年特聘教授齐冲冲,3 年博士期间发表 40 篇 SCI? 
  想从事理论物理科研工作,本科至少是什么档次的大学? 
  弟弟估分能上清北,选人工智能还是网络新媒体(新闻传播类)专业? 
  TensorFlow 中 padding 的 SAME 和 VALID 两种方式有何异同? 
  2021 年各家大厂的 AI Lab 现状如何? 
  基础科学应该缩小招生规模吗? 
  如何研读一篇论文? 
  我们生活在一个等离子宇宙中吗? 
  如何评价华为天才少年钟钊团队成功开启了 AutoML 大规模商用的先河?什么是 AutoML? 
  这种情况是否适合出国做博后,需要准备什么? 

前一个讨论
有哪些以「皇上,奇变偶不变?」开头的沙雕文?
下一个讨论
手持冷兵器真的能像电影里那样直接捅穿人的头骨吗?





© 2024-05-15 - tinynew.org. All Rights Reserved.
© 2024-05-15 - tinynew.org. 保留所有权利