百科问答小站 logo
百科问答小站 font logo



如何评价「Patches are all you need」? 第1页

  

user avatar   huo-hua-de-41 网友的相关建议: 
      

中国古人云,一图胜千言。意思就是说,要理解一张图像至少需要32乘32个patch,对于224 x 224的输入图像,那patch size就是7,与文中结论一致。

当计算机视觉科学家不断攀登山峰的时候,却发现中国的古代哲学家已经站在山顶等他们很久了。

我又一次被中国古人的智慧所折服,我准备写一篇Chinese philosophy is all you need

狗头


user avatar   xiaohuzc 网友的相关建议: 
      

这两篇论文的重点不太一样。

Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight

这里核心是总结了local vision transformer的特点,swin核心是7*7的window attention,而换成7*7 depthwise conv也同样具备local vision transformer的特点,效果也是杠杠的。

Patches Are All You Need?

这篇论文,虽然套在了ViT架构上,从本质上看,就是去掉了CNN常用的downsample,变成了完全堆积stride=1卷积层了,这样也必须通过较大的kernel size弥补感受野。ViT设计patch是为了降低计算量,而且attention是全局建模的,但是卷积是局部建模的,论文也没有太明确这点,至于论文的题目,我觉得看论文很难得到这个点。


user avatar    网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  2021 年全球国际专利申请量 277500 件,中国国际专利申请量为全球第一,还有哪些信息值得关注? 
  如何评价 MSRA 视觉组最新提出的 Deformable ConvNets V2? 
  如何评价 2015 年安徽高考作文题「蝴蝶翅膀在扫描电镜下是无色的」? 
  如何看待人教版教材疑似出现低级错误,用爱因斯坦相对论证明勾股定理? 
  求问各位科研人,你觉得学习哲学对你的科研之路有什么具体的帮助? 
  为什么Transformer适合做多模态任务? 
  为什么导师总说,科研搞好了,工作随便找? 
  读博期间强烈怀疑自己所在学科的价值是一种什么样的体验? 
  如何在本科期间认识国外高水平的研究生/博士生导师? 
  2021 年全球国际专利申请量 277500 件,中国国际专利申请量为全球第一,还有哪些信息值得关注? 

前一个讨论
有哪些适合科研工作者的解压方式?
下一个讨论
在高校招生名额固定的情况下,生化环材劝退的意义是什么?





© 2025-06-21 - tinynew.org. All Rights Reserved.
© 2025-06-21 - tinynew.org. 保留所有权利