首页

为什么ViT里的image patch要设计成不重叠？第1页

1

xiaohuzc 网友的相关建议:

其实这个问题，本身可能没有想象的那么复杂，最开始肯定考虑输入是pixel的，可是计算量承受不起，那就把图像分成patch。

网友的相关建议:

题主的concern是对的，切分-投影的做法确实很直接地兼容Transformer框架，不过这种方法确实有一定问题：

1、如果认为translation invariant是很重要的先验，那这种方法显然不满足这一性质；

2、对patch内部的空间结构信息有破坏，像素结构在上层（随着attention）逐渐丢失。

关于后一点，通过修改网络结构向Transformer block里补充像素结构已经被实验证实是有益的，例如华为诺亚实验室的TNT：

为什么ViT里的image patch要设计成不重叠？的其他答案点击这里

1

相关话题

  如何评价 MSRA 最新的 Deformable Convolutional Networks？
  NLP文本分类的本质是不是其实是找相似，对于要分类的句子，在训练集里找最相似的句子？
  为什么很少人用FFT加速CNN卷积层的运算？
  为什么ViT里的image patch要设计成不重叠？
  2020到2021年小样本学习取得重大进展了吗？
  如何评价亚马逊AI新开源自动机器学习项目AutoGluon?
  AAAI 2022有哪些值得关注的方向？
  深度学习底层开发对数学有哪些要求？
  如何解决图神经网络（GNN）训练中过度平滑的问题？
  有没有根据一张人物的立绘正面像，自动生成同风格各侧面角度像并自动衍生表情的软件啊？

前一个讨论

2021 新高考填报模式「专业（类）+院校」组合如何填报？什么是「院校专业组」？

下一个讨论

如何看待中山大学2021年本科大类招生？

相关的话题

  有哪些贝叶斯推理入门的书籍？
  如何评价Momenta ImageNet 2017夺冠架构SENet?
  刷leetcode使用python还是c++？
  如何看待Meta（恺明）最新论文ViTDet：只用ViT做backbone（不使用FPN）的检测模型？
  如何评价 MLSys 这个会议？
  如何证明对任意给定的正数e，存在M上的矩阵范数||A||，满足不等式||A||<=谱半径+e?
  如何看待2016年3月柯洁表示 AlphaGo「赢不了我」？
  如何理解 inductive learning 与 transductive learning?
  对神经网络某一层做了小改进，效果却提升显著，可以发论文吗？
  土木和机器学习/深度学习/算法的交叉岗位在哪里找呀？在哪找都找不到招聘公司?
  如何评价 MSRA 最新的 Deformable Convolutional Networks？
  西交利物浦大学（英国利物浦大学博士学位）全奖博士?
  transformer中的Q,K,V到底是什么？
  如何评价Yann LeCun宣称『他已经做好放弃概率论的准备』？
  如何看待swin transformer成为ICCV2021的 best paper？
  如何判断两个Deep Learning 数据集的数据分布是否一致？
  目标检测算法中Two-stage算法速度慢,到底在哪里?
  神经网络训练多个epoch，写论文的时候可以取最好的效果那一个epoch作为结果吗？
  有什么算法能对一个长短不一的时间序列进行分类预测?
  如何评价MSRA视觉组最新对spatial attention mechanism分析论文？
  cv/nlp等方向的就业困难是全球性的吗？
  如何理解深度学习中的deconvolution networks？
  如何评价微软亚研院提出的把 Transformer 提升到了 1000 层的 DeepNet？
  ICLR 2019 有什么值得关注的亮点？
  土木和机器学习/深度学习/算法的交叉岗位在哪里找呀？在哪找都找不到招聘公司?
  怎么通过一维分布的随机样本推测原分布？
  如何看待KDD'21的文章，异质图神经网络的效果不如简单的GCN、GAT？
  graph convolutional network有什么比较好的应用task？
  如何评价基于游戏毁灭战士（Doom）的AI死亡竞赛大赛结果？
  现在机器学习工业界和学术界的差别越来越大了吗？尽早实习和踏实科研各有什么利弊？

© 2025-05-10 - tinynew.org. All Rights Reserved.
© 2025-05-10 - tinynew.org. 保留所有权利