首页

为什么ViT里的image patch要设计成不重叠？第1页

1

xiaohuzc 网友的相关建议:

其实这个问题，本身可能没有想象的那么复杂，最开始肯定考虑输入是pixel的，可是计算量承受不起，那就把图像分成patch。

网友的相关建议:

题主的concern是对的，切分-投影的做法确实很直接地兼容Transformer框架，不过这种方法确实有一定问题：

1、如果认为translation invariant是很重要的先验，那这种方法显然不满足这一性质；

2、对patch内部的空间结构信息有破坏，像素结构在上层（随着attention）逐渐丢失。

关于后一点，通过修改网络结构向Transformer block里补充像素结构已经被实验证实是有益的，例如华为诺亚实验室的TNT：

为什么ViT里的image patch要设计成不重叠？的其他答案点击这里

1

相关话题

  为什么现在不看好 CV 方向了呢?
  如何评价CVPR2019程序主席Derek Hoiem的论点：计算机视觉只是记忆，不是智能？
  如何看待谷歌研究人员提出的卷积正则化方法「DropBlock」？
  深度学习有哪些好玩的案例？
  有没有什么可以节省大量时间的 Deep Learning 效率神器？
  深度学习（机器学习）的下一步如何发展？
  深度学习方面的科研工作中的实验代码有什么规范和写作技巧？如何妥善管理实验数据？
  wasserstein 距离的问题?
  在统计学领域有哪些经典奠基性的论文？
  如何评价Google最新提出的gMLP：MLP模型在CV和NLP任务上均取得较好的效果？

前一个讨论

2021 新高考填报模式「专业（类）+院校」组合如何填报？什么是「院校专业组」？

下一个讨论

如何看待中山大学2021年本科大类招生？

相关的话题

  什么是大模型？超大模型？Foundation Model？
  为什么在实际的kaggle比赛中，GBDT和Random Forest效果非常好？
  如何看待旷视确定香港上市？
  自己学习深度学习时，有哪些途径寻找数据集？
  目前 AI 在疾病的诊断和治疗上，有哪些成功的应用？
  在实际工程系统中，MPC太复杂，难以做到realtime。因此都利用数据，MPC对比RL还有优势么?
  强化学习和自适应控制的关系是什么？
  能否介绍一下强化学习（Reinforcement Learning），以及与监督学习的不同？
  你见过最差的算法工程师能差到什么程度？
  如何评价 CVPR 2020的论文接收结果？有哪些亮点论文？
  计算机视觉中video understanding领域有什么研究方向和比较重要的成果？
  在Lasso中，oracle property指的是什么性质？
  如何理解深度学习中的deconvolution networks？
  如何评价Hinton组的新工作SimCLR?
  全连接层的作用是什么？
  有哪些比较好的机器学习、数据挖掘、计算机视觉的订阅号、微博或者是论坛？
  NLP 中 prompt learning 有哪些可能的天生缺陷？目前有什么样的方法来解决这样的缺陷？
  为什么我用相同的模型，数据，超参，随机种子，在两台服务器会得到不同的结果？
  人脸识别哪家强？
  是否有可能使用人工智能在高原、戈壁和沙漠中进行工业生产？
  如何评价 On Unifying Deep Generative Models 这篇 paper?
  Transformer中的Mask矩阵已经有顺序了，能去掉position embedding吗?
  如何评价 CVPR 2020的论文接收结果？有哪些亮点论文？
  卷积神经网络如果将池化层去除，与神经网络的区别还大么？
  如何看待多所 985 大学开设人工智能专业？
  机器学习小白来提问：关于联邦学习FedAVG和FedSGD的问题？
  写深度学习代码是先写model还是dataset还是train呢，有个一般化的顺序吗？
  机器学习，数据挖掘在研究生阶段大概要学些什么？
  行人轨迹预测有哪些有效的方法和普遍的base方法？或者public dataset?
  如何看待2016年3月柯洁表示 AlphaGo「赢不了我」？

© 2025-04-02 - tinynew.org. All Rights Reserved.
© 2025-04-02 - tinynew.org. 保留所有权利