百科问答小站 logo
百科问答小站 font logo



为什么ViT里的image patch要设计成不重叠? 第1页

  

user avatar   xiaohuzc 网友的相关建议: 
      

其实这个问题,本身可能没有想象的那么复杂,最开始肯定考虑输入是pixel的,可是计算量承受不起,那就把图像分成patch。


user avatar    网友的相关建议: 
      

题主的concern是对的,切分-投影的做法确实很直接地兼容Transformer框架,不过这种方法确实有一定问题:

1、如果认为translation invariant是很重要的先验,那这种方法显然不满足这一性质;

2、对patch内部的空间结构信息有破坏,像素结构在上层(随着attention)逐渐丢失。

关于后一点,通过修改网络结构向Transformer block里补充像素结构已经被实验证实是有益的,例如华为诺亚实验室的TNT:




  

相关话题

  在算力充沛,深度学习模型大行其道的今天,传统机器学习的未来在哪里? 
  反馈控制理论在优化、机器学习等领域有哪些应用? 
  谈谈机器学习在网络安全领域的局限性,以及是否乐观? 
  能否对卷积神经网络工作原理做一个直观的解释? 
  如何看待「机器学习不需要数学,很多算法封装好了,调个包就行」这种说法? 
  如何评价FAIR提出的MaskFormer,在语义分割ADE20K上达到SOTA:55.6 mIoU? 
  NLP领域,你推荐哪些综述性的文章? 
  是不是对于任意 n×n 大小的围棋棋盘,人类都赢不了 AlphaGo Zero 了? 
  无人车为什么一定要用激光雷达做,双目视觉难道不行吗? 
  分类机器学习中,某一标签占比太大(标签稀疏),如何学习? 

前一个讨论
2021 新高考填报模式「专业(类)+院校」组合如何填报?什么是「院校专业组」?
下一个讨论
如何看待中山大学2021年本科大类招生?





© 2025-03-29 - tinynew.org. All Rights Reserved.
© 2025-03-29 - tinynew.org. 保留所有权利