为什么ViT里的image patch要设计成不重叠？

在深入探讨 Vision Transformer (ViT) 中图像块（image patch）为何被设计成不重叠之前，我们不妨先回顾一下 Transformer 的起源和核心思想。Transformer 最初是在自然语言处理（NLP）领域取得巨大成功的模型，其核心在于自注意力机制（SelfAttention）。自注意力机制允许模型在处理序列数据时，能够关注到序列中任意位置的元素，并计算它们之间的关联度。这种强大的建模能力，让 Transformer 能够捕捉长距离依赖关系，这在理解语言的上下文至关重要。

当研究人员尝试将 Transformer 引入计算机视觉领域时，一个关键的挑战是如何将图像这个二维结构“适配”到 Transformer 擅长处理的序列数据上。ViT 的核心贡献就在于此：它提出了一种将图像分解成一系列“视觉词汇”或“视觉单元”，并将这些单元视为序列输入到 Transformer 中的方法。

那么，为什么选择不重叠的图像块呢？我们可以从几个关键角度来理解这个设计选择：

1. 简化输入序列的构建，降低计算复杂度

Transformer 的计算复杂度与其输入序列的长度呈平方关系（$O(L^2)$，其中 $L$ 是序列长度）。如果我们将图像分割成重叠的块，那么：

序列长度会急剧增加：假设原始图像大小为 $H imes W$，我们将图像分割成 $P imes P$ 的块。如果不重叠，每个图像就有 $(H/P) imes (W/P)$ 个块，即序列长度为 $L = (H imes W) / P^2$。但如果块之间有重叠，比如每次移动 $S$ 个像素（$S < P$），那么在水平和垂直方向上，块的数量都会增加。例如，如果步长为 $S$，那么水平方向的块数大约是 $(WP)/S + 1$，垂直方向是 $(HP)/S + 1$。这会导致总的块数，也就是输入序列的长度 $L'$ 远大于不重叠的情况。
计算量爆炸式增长：序列长度的增加直接导致自注意力机制的计算量呈平方增长。一个 $224 imes 224$ 的图像，如果分割成 $16 imes 16$ 的不重叠块，大约有 $(224/16) imes (224/16) = 14 imes 14 = 196$ 个块。如果块的重叠度很高，例如步长为 8，那么块的数量可能会翻倍甚至更多，计算量会变得非常难以承受。

简单来说，不重叠的块是一种最“经济”的将图像信息编码为序列的方式，它能够在保证覆盖整个图像的前提下，最大程度地控制输入序列的长度。

2. 模拟“词汇”的概念，发挥 Transformer 的序列建模优势

Transformer 在 NLP 中的成功，很大程度上源于它能够像处理单词一样处理文本序列。每个单词被映射成一个词向量，然后输入到 Transformer 中。

ViT 将不重叠的图像块类比于 NLP 中的“单词”：

独立性与基本单元：每个不重叠的图像块可以被视为一个相对独立的信息单元，类似于一个“视觉单词”。它捕捉了局部区域的特征信息。
序列化处理：将这些块“展平”成向量，然后像序列一样输入到 Transformer 中。这种方式使得 Transformer 能够直接学习这些“视觉单词”之间的关系，从而捕捉图像的整体结构和上下文。

如果块是重叠的，那么相邻的块之间会有大量相同的信息。这可能会导致：

信息冗余：模型需要花费更多的计算资源来处理重复的信息，而这些信息并没有提供全新的见解。
“注意力”的稀释：自注意力机制在计算相似度时，重叠区域的信息可能会“拉平”不同块之间的辨别性，使得模型更难区分那些真正具有区分度的局部模式。

不重叠的设计，让每个块都贡献独特的信息，更符合 Transformer 学习独立信息单元及其之间关系的原有范式。

3. 引入位置信息，但通过特定机制

Transformer 本身是“排列不变性”的，也就是说，它不关心输入元素的顺序。为了让模型能够理解图像中不同块的空间位置关系，ViT 引入了位置编码（Positional Encoding）。

固定模式的位置编码： ViT 使用可学习的二维位置编码，将每个块的绝对位置信息添加到其对应的嵌入向量中。这意味着即使块的内容相同，但它们处于图像的不同位置，其编码也是不同的。
为什么不重叠更利于此？如果块是重叠的，那么同一个像素可能属于多个不同的块。这会让位置编码的设计变得复杂，并且可能导致模型在学习位置信息时产生混淆。例如，一个像素同时属于“中心块 A”和“右侧块 B”，它的位置信息应该如何准确地编码到这两个块中？

不重叠的块提供了一个清晰、离散的网格结构，使得位置编码能够更直观、更有效地被应用，帮助模型理解图像的空间布局。

4. 与卷积神经网络（CNN）的对比与区别

在 ViT 出现之前，CNN 是计算机视觉领域的绝对霸主。CNN 通过卷积核在图像上滑动来提取特征，卷积核的“感受野”允许它在局部区域内进行信息聚合。

CNN 的局部性：卷积操作本身就具有局部性，通过堆叠卷积层，感受野逐渐增大，从而捕捉更全局的信息。
ViT 的全局性： ViT 通过自注意力机制，能够直接计算任意两个块之间的关系，这使得它在处理长距离依赖关系上比 CNN 更具优势。

ViT 的不重叠块设计，可以看作是一种“全局感受野”的尝试。每个块捕获一个固定大小的局部区域，然后 Transformer 的自注意力机制负责将这些局部信息整合起来，形成对整个图像的理解。

如果 ViT 中的块是重叠的，它可能会试图模拟 CNN 中步长小于卷积核大小的效果，但这种方式可能并非 Transformer 架构的最优解，并且会增加不必要的计算负担。ViT 选择了一种更符合 Transformer 原有设计哲学的路径：将图像分解成离散的、有明确位置的单元，然后用自注意力机制来建立它们之间的全局关联。

总结

简而言之，ViT 中图像块设计成不重叠，是为了：

控制输入序列的长度，降低计算复杂度，这是 Transformer 能够处理图像的关键前提。
将图像信息类比于 NLP 中的“单词”，让 Transformer 的序列建模能力得以发挥，学习块之间的关系。
简化位置信息的编码和学习，为模型理解图像的空间结构打下基础。
与 CNN 形成差异化，并更好地利用 Transformer 的全局建模能力。

这是一种为了适应 Transformer 架构而做出的、兼顾效率与模型表达能力的明智设计。虽然存在一些研究探索重叠块或其他更复杂的图像分割方式，但 ViT 的不重叠块策略是其开创性工作的基础，也是其成功的重要原因之一。

网友意见

其实这个问题，本身可能没有想象的那么复杂，最开始肯定考虑输入是pixel的，可是计算量承受不起，那就把图像分成patch。

题主的concern是对的，切分-投影的做法确实很直接地兼容Transformer框架，不过这种方法确实有一定问题：

1、如果认为translation invariant是很重要的先验，那这种方法显然不满足这一性质；

2、对patch内部的空间结构信息有破坏，像素结构在上层（随着attention）逐渐丢失。

关于后一点，通过修改网络结构向Transformer block里补充像素结构已经被实验证实是有益的，例如华为诺亚实验室的TNT：

类似的话题

为什么ViT里的image patch要设计成不重叠？

在深入探讨 Vision Transformer (ViT) 中图像块（image patch）为何被设计成不重叠之前，我们不妨先回顾一下 Transformer 的起源和核心思想。Transformer 最初是在自然语言处理（NLP）领域取得巨大成功的模型，其核心在于自注意力机制（SelfAtte.............
为什么近几年来自由主义在世界逐渐走弱？

近年来，自由主义在全球范围内的影响力确实呈现出明显的衰落趋势，这一现象涉及经济、政治、社会、技术、文化等多个层面的复杂互动。以下从多个维度详细分析自由主义衰落的原因：一、经济全球化与贫富差距的加剧1. 自由主义经济政策的局限性自由主义经济学强调市场自由、私有化、减少政府干预，但其在21世.............
为什么俄乌战争假消息满天飞？

俄乌战争期间，虚假信息（假消息）的传播确实非常广泛，其背后涉及复杂的国际政治、媒体运作、技术手段和信息战策略。以下从多个角度详细分析这一现象的成因： 1. 信息战的直接动因：大国博弈与战略竞争俄乌战争本质上是俄罗斯与西方国家（尤其是美国、北约）之间的地缘政治冲突，双方在信息领域展开激烈竞争：俄罗斯.............
为什么没有枪的政府能指挥有枪的军队？

政府与军队之间的关系是一个复杂的政治与军事体系问题，其核心在于权力的合法性和制度性约束。虽然政府本身可能不直接持有武器，但通过法律、组织结构、意识形态和历史传统，政府能够有效指挥拥有武器的军队。以下是详细分析：一、法律授权与国家主权1. 宪法与法律框架政府的权力来源于国家宪法或法律。例如.............
为什么很多人都说传武就是杀人技？

关于“传武就是杀人技”的说法，这一观点在历史、文化和社会语境中存在一定的误解和偏见。以下从历史、文化、现代演变和误解来源等多个角度进行详细分析：一、历史背景：武术的原始功能与社会角色1. 自卫与生存需求中国传统武术（传武）的起源与农耕社会、游牧民族的生存环境密切相关。在古代，武术的核心功.............
为什么说近代历史人物只有袁世凯和汪精卫不能翻案？

关于近代历史人物是否能够“翻案”的问题，需要结合历史背景、人物行为对国家和民族的影响，以及历史评价的客观性进行分析。袁世凯和汪精卫作为中国近代史上的重要人物，其历史评价确实存在复杂性和争议性，但“不能翻案”的结论并非基于单一因素，而是综合历史、政治、道德等多方面考量的结果。以下从历史背景、人物行为、.............
为什么俄罗斯被个别网友称作俄爹？如何反驳？

关于“俄爹”这一称呼，其来源和含义需要从多个角度分析，同时要明确其不尊重的性质，并指出如何正确回应。以下是详细解析和反驳思路：一、称呼的来源与可能的含义1. 可能的字面拆解 “俄”是“俄罗斯”的拼音首字，而“爹”在中文中通常指父亲，带有亲昵或戏谑的意味。若将两者结合，可能暗示.............
为什么民国短短二三十年却能出现大批大师级人物？

民国时期（19121949）虽然仅持续约37年，却涌现出大量在文学、艺术、科学、政治、哲学等领域具有划时代意义的“大师级人物”。这一现象的出现，是多重历史、社会、文化因素共同作用的结果。以下从多个维度进行详细分析：一、思想解放与文化启蒙的浪潮1. 新文化运动（19151923）思想解放.............
为什么航空航天待遇不好，但国家在航空航天技术上依然取得飞速发展？

航空航天领域在待遇和职业环境上确实存在一定的挑战，但国家在该领域取得的飞速发展，主要源于多方面的国家战略、技术积累和系统性支持。以下从多个维度详细分析这一现象：一、国家战略与长期投入：推动技术突破的核心动力1. 国家层面的战略目标航空航天技术往往与国家的科技竞争力、国家安全和国际地位密切.............
为什么很多人讨厌吴京?

吴京作为中国知名演员、导演，近年来因《战狼2》《英雄联盟》等作品及个人生活引发公众关注，其形象和言论在不同语境下存在争议，导致部分人对其产生负面评价。以下从多个角度详细分析可能的原因： 1. 个人生活与公众形象的冲突妻子被曝光：2018年，吴京妻子的近照和视频被网友扒出，引发舆论争议。部分人.............
为什么最近忽然冒出来这么多支持乌克兰的？

近年来，全球范围内对乌克兰的支持确实呈现出显著增加的趋势，这一现象涉及多重因素，包括国际局势、地缘政治博弈、信息传播、经济援助、民族主义情绪以及国际社会的集体反应。以下从多个角度详细分析这一现象的成因： 1. 俄乌战争的爆发与国际社会的集体反应战争的爆发：2022年2月，俄罗斯对乌克兰发动全面入侵.............
为什么《是大臣》《是首相》的编剧没当过公务员、没太多亲身经历，也能写出这么好的政治剧剧本？

《是大臣》《是首相》等政治剧之所以能在编剧缺乏公务员经历的情况下取得成功，主要源于以下几个关键因素的综合作用： 1. 构建政治剧的底层逻辑：制度与权力的结构性认知政治体制的系统性研究：编剧可能通过大量研究英国议会制度、政府运作流程、政党政治规则（如议会制、内阁制、党鞭系统等）来构建剧情。例如.............
为什么剧组里，男的可以坐镜头箱，女的却不可以？

关于“剧组中男性可以坐镜头箱而女性不能”的现象，这一说法可能存在误解或过度泛化的倾向。在影视拍摄中，镜头箱（通常指摄影机或固定设备）与演员的性别并无直接关联，但若涉及性别差异的讨论，可能与以下多方面因素相关： 1. 传统性别刻板印象的延续历史背景：在传统影视文化中，男性常被赋予主导、主动的角.............
为什么印度在俄乌战争中不表态，而且在安理会上对俄罗斯决案弃权？

印度在俄乌战争中不公开表态、在安理会投票中对俄罗斯的决议案弃权，这一行为背后涉及复杂的地缘政治、经济利益和外交策略考量。以下是详细分析： 1. 与俄罗斯的经济与军事合作能源依赖：印度是俄罗斯的重要能源进口国，2022年俄乌战争爆发后，印度从俄罗斯进口了大量石油和天然气，以缓解对西方能源的依赖。尽管.............
为什么那么多公知都是高校知识分子？

关于“公知”与高校知识分子的关系，这一现象涉及中国社会、教育体系、媒体环境以及知识分子角色的多重因素。以下从多个维度进行分析：一、高校知识分子的特殊性1. 教育背景与专业素养高校知识分子通常拥有高等教育背景，具备较强的知识储备和批判性思维能力。这种专业素养使他们更倾向于参与公共讨论，尤其.............
为什么诸多短视频app内容的字幕中，要把 “死” “钱” “血”等字打上马赛克？

短视频平台在字幕中对“死”“钱”“血”等字打上马赛克，主要出于以下几方面的考虑，涉及内容监管、文化规范、法律合规和平台运营策略： 1. 避免敏感内容传播这些字可能与以下敏感话题相关，平台通过屏蔽来防止违规内容扩散： “死”：可能涉及自杀、死亡、濒死等话题，容易引发负面情绪或被用于极端内容（如自杀教程.............
为什么最近有很多的素食主义者带节奏，他们想干什么？

素食主义作为一项社会运动，其发展与传播确实涉及复杂的动机和行为逻辑。从现象学角度分析，素食主义者的“带节奏”行为可能源于以下几个层面的原因和目的：一、社会运动的传播逻辑1. 信息传播的网络效应在社交媒体时代，素食主义者通过短视频、直播、图文等形式形成信息扩散链。例如，YouTube上"V.............
为什么伊朗可以爆发伊斯兰革命逆世俗化？

伊朗的伊斯兰革命（1979年）是20世纪最重大的政治事件之一，其爆发和“逆世俗化”趋势的形成，是多重历史、社会、经济和宗教因素交织的结果。以下从多个维度详细分析这一现象的成因：一、历史背景：波斯帝国的衰落与殖民影响1. 波斯帝国的遗产波斯帝国（公元前550年）曾是中东最强大的帝国之一，以.............
为什么伊尔96，图204等俄制商用客机没有良好的销路？

伊尔96（Il96）和图204（Tu204）是苏联和俄罗斯在20世纪80至20世纪初研制的中短程宽体客机，但它们在国际航空市场上的表现并不理想，主要原因涉及技术、经济、政治、市场和竞争等多个层面。以下从多个角度详细分析其销路不佳的原因： 1. 技术性能不足：无法满足现代市场需求伊尔96（1970年.............
为什么飞机需要数客，而高铁不用？

您的问题可能存在一些误解或翻译错误。实际上，飞机和高铁都需要乘客，两者都是用于运输乘客的交通工具，只是在技术、运行方式和应用场景上有显著差异。以下是详细解释： 1. 高铁和飞机都需要乘客高铁：中国高铁（如京沪高铁、京广高铁）是高速铁路系统，主要用于短途和中长途客运，乘客数量庞大，是国家重要的交通方.............