在计算机视觉任务中，运用Transformer和Non-local有何本质区别？

好的，我们来聊聊计算机视觉领域里，Transformer 和 Nonlocal Attention 之间的本质区别，尽量说得细致一些，去掉那些 AI 痕迹。

想象一下，我们看一张照片，比如一张风景照。我们的眼睛是如何理解这张照片的呢？我们不仅仅是看某个像素点，而是会将不同的部分联系起来。比如，我们看到远处的山，会意识到它和近处的树是属于同一个场景的，它们之间存在着距离、光照等关系。这种“关联”的能力，正是计算机视觉模型想要模仿的。

Nonlocal Attention：抓住“全局”的“相关性”

Nonlocal Attention，正如其名字所示，它的核心思想是“非局部”地捕捉“相关性”。

在传统的卷积神经网络（CNN）中，每个卷积核处理的范围是有限的，通常是局部感受野。这意味着一个像素点的信息，主要受到它周围邻近像素的影响。为了让模型能够感知到更远距离的信息，需要堆叠很多层卷积，通过层层的信息传递来逐渐扩大感受野。这就像是信息在“一步步”地传递，效率相对较低。

Nonlocal Attention 的出现，就是为了打破这种局限。它允许模型直接计算任意两个位置（像素点、特征图位置等）之间的关系。

举个例子，在一张图片中，画面左上角的一朵小花，和画面右下角的一棵大树，即使它们在空间上相距很远，但在语义上可能存在关联（比如它们都在同一片森林里）。Nonlocal Attention 就能直接计算这朵花和这棵树之间的“重要性”或“相关性”。

具体来说，Nonlocal Attention 的计算过程通常是这样的：

1. 计算“关系”：对于特征图上的每一个位置，它会去与其他所有位置进行“对比”或“计算”。这个“对比”的过程，就是计算它们之间的相似度或相关性，通常是通过点积、高斯核等方式实现的。
2. 加权求和：这些计算出来的相关性分数，会作为“权重”，用来加权求和所有位置的特征。也就是说，与当前位置“相关性”越高的位置，它的特征在计算当前位置的最终输出时，会占据越重要的地位。

核心：直接建立长距离依赖

Nonlocal Attention 的本质在于，它直接建模了任意两个位置之间的依赖关系。它不依赖于层层堆叠的卷积来“绕远路”获取远距离信息，而是“一步到位”。这种能力对于理解全局场景、捕捉长距离的空间结构非常有帮助。

Transformer：聚焦“上下文”的“序列化”表示

Transformer 作为一个更广泛的模型架构，它在计算机视觉领域的引入，主要是受到了自然语言处理（NLP）的启发。在 NLP 中，Transformer 依靠其核心机制——SelfAttention——来处理序列数据。

SelfAttention 的目标是为序列中的每一个元素（比如一个词）计算一个“上下文感知”的表示。它也是通过计算元素之间的“相关性”来实现的，但其关注点和应用方式有所不同。

当 Transformer 被应用于计算机视觉时，通常会做一些“适配”：

1. 将图像“序列化”：传统的图像处理是基于二维网格的，而 Transformer 处理的是序列。所以，通常会将图像分割成一系列小的“图块”（patches），并将这些图块“展平”成一个序列。每个图块就相当于序列中的一个“元素”。
2. SelfAttention 的应用：在这个图块序列上，Transformer 的 SelfAttention 机制就开始发挥作用了。它会计算序列中任意两个图块之间的相关性。就像在 NLP 中计算词语之间的关系一样，这里计算的是图块之间的关系。
3. 位置编码：由于 Transformer 本身不具备处理序列顺序的能力（它计算的是全局相关性），需要引入“位置编码”来告诉模型每个图块在原始图像中的位置信息。

核心：构建全局的、上下文相关的表示

Transformer 的本质在于，它将图像的局部信息（图块）转换为序列，然后利用 SelfAttention 机制在全局范围内，为每个图块计算一个综合了所有其他图块信息的“上下文”表示。这种表示是高度全局化和上下文相关的。

本质区别的梳理

现在，我们来明确一下它们的本质区别：

1. 概念的层级与应用范围：
Nonlocal Attention 是一种“注意力机制”，是一种提升模型感知长距离依赖能力的“方法”或“模块”。它可以被看作是 Transformer 的 SelfAttention 的一个“特例”或“早期版本”，但更加专注于捕捉“空间上的”长距离依赖。
Transformer 是一种“模型架构”，它通常包含 SelfAttention 作为核心组件，但不仅仅是注意力机制。它还有前馈网络（FeedForward Network）、残差连接（Residual Connection）、层归一化（Layer Normalization）等一系列组件，共同构成一个完整的、强大的网络。

2. 建模对象与信息流动：
Nonlocal Attention：它的主要建模对象是特征图上的“位置”。它直接计算任意两个位置特征之间的相似度，然后用这些相似度去加权聚合特征。信息流动是“位置到位置”的直接关联。
Transformer (Vision Transformer)：它的建模对象是图像被“序列化”后的“图块”。它计算任意两个图块之间的相关性，然后用这些相关性去更新每个图块的表示，形成一个上下文感知的图块序列。信息流动是“图块到图块”的全局交换和整合。

3. “注意力”的焦点：
Nonlocal Attention：更侧重于像素/位置之间的“空间相关性”。它关注的是“这张图片里，左上角的花和右下角的树有多像？”，或者“画面远处的山和近处的草地有没有关联？”
Transformer (SelfAttention)：更侧重于图块之间的“语义/内容相关性”。它关注的是“这个图块（可能包含一棵树）和那个图块（可能包含一片天空）在构成整个场景时，应该如何相互影响，共同形成更丰富的上下文信息？”

4. 计算的复杂度和灵活性：
Nonlocal Attention：对于一个 $H imes W$ 的特征图，计算复杂度通常是 $O((HW)^2)$，因为它需要计算所有位置对的交互。
Transformer (SelfAttention)：在 Vision Transformer 中，假设图片被分割成 $N$ 个图块，其 SelfAttention 的计算复杂度是 $O(N^2)$。如果 $N$ 远小于 $HW$（比如一个 224x224 的图片，分成 16x16 的图块，N=196），那么 Transformer 的计算量可能比直接在像素层面做 Nonlocal Attention 要小。但 Transformer 的计算是基于图块序列，并且有额外的 FFN 等计算。

5. “上下文”的理解：
Nonlocal Attention：提供的“上下文”主要是一种全局的空间上下文，它告诉你图像中哪些远距离的位置在空间上可能存在共性或相关性。
Transformer：提供的“上下文”则是一种更深度的、融合了全局信息的内容上下文。每个图块的最终表示，都是通过与其他所有图块的交互，学习到了“它们各自是什么，以及它们在整个场景中扮演什么角色”的综合信息。

打个比方：

Nonlocal Attention 就像是一个经验丰富的侦探，他在审视一桩案件时，能直接从现场的线索（不同位置的特征）中，快速发现看似无关但可能存在联系的关键点（远距离相关性），并将这些联系整合起来。

Transformer 就像是一个团队合作的专家组。他们把一个复杂的任务（理解整张图片）分解成小部分（图块），然后每个专家（图块）都会与其他所有专家进行详细的沟通和讨论（SelfAttention），最终每个人都能形成一个极其全面的、理解了全局背景的观点。

总结来说：

Nonlocal Attention 是 Nonlocal 的一个核心思想的实现，它专注于在空间上建立长距离依赖。而 Transformer 架构，尤其是 Vision Transformer，则将这种“全局关联”的思想进行泛化和结构化，通过将图像“序列化”并应用 SelfAttention，实现了对图像中各个部分（图块）的全局、上下文感知的深度理解。Transformer 不仅仅是一个注意力机制，它是一个更完整的、能够学习复杂特征表示的强大框架。

可以说，Nonlocal Attention 为 Transformer 在视觉领域的成功奠定了基础，展示了长距离依赖建模的重要性。而 Transformer 则在此基础上，通过更系统化的架构和更强大的 SelfAttention，将这种能力发挥到了极致，并开启了计算机视觉的新篇章。

网友意见

3年后再看non-local NN，原来 non-local block = transformer layer (single head) - FFN - positional encoding啊！

[1] 证明了FFN(即MLP)的重要性。这可能解释了为什么几层Non-local layer叠起来提升不大。我自己的实验证明positional encoding对分割任务是有提升的。另外很多transformer for cv的paper都证明multi head表现的比single head更好。

[1] Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth. arXiv:2103.03404.

类似的话题

在计算机视觉任务中，运用Transformer和Non-local有何本质区别？

好的，我们来聊聊计算机视觉领域里，Transformer 和 Nonlocal Attention 之间的本质区别，尽量说得细致一些，去掉那些 AI 痕迹。想象一下，我们看一张照片，比如一张风景照。我们的眼睛是如何理解这张照片的呢？我们不仅仅是看某个像素点，而是会将不同的部分联系起来。比如，我们看到.............
某科普视频通过史料计算出唐朝底层五口之家一天消耗粮食在6到8斤，从而得出唐朝时人们都饿肚子是合理的吗？

关于唐朝底层五口之家一天消耗粮食在6到8斤，以及由此推断“唐朝人都饿肚子”的结论，这确实是一个值得深入探讨的问题。作为一名对历史充满好奇的普通人，我来试着用更贴近生活、更详细的方式梳理一下这个问题，看看这个结论站不站得住脚。首先，我们来拆解一下“6到8斤粮食”这个数字。这个数字是怎么算出来的？科普视.............
在计算机和芯片技术出现前，地铁怎样按里程计费售票？

在计算机和芯片技术彻底改变售票方式之前，地铁的里程计费售票体系，远比我们今天看到的自动售票机和智能卡要来得传统和充满手工的智慧。这套系统，虽然在今天看来略显繁琐，但却能高效地运作，体现了那个时代工业化运作的严谨和细致。核心机制：区域划分与票价表最根本的解决方式是划分计费区域。整个地铁网络会被切割成一.............
在计算机中utility应该怎么翻译?

在计算机领域，“utility”这个词，虽然字面意思是“效用”或“用途”，但它在中文里的翻译却是一个需要细细体会的概念，不能简单地一词对应。它所指代的，更多的是那些服务于特定目的，帮助用户完成更高效、更便捷操作的工具或者程序。你可以这样理解：当你的电脑出现了一些小问题，比如需要清理磁盘空间、卸载顽固.............
圆周率在计算机里是怎么算出来的？

圆周率（π）是一个数学常数，表示圆的周长与其直径之比。它是一个无理数，意味着它的小数部分是无限不循环的。在计算机中计算圆周率，我们无法得到一个无限精确的值，只能通过各种算法逼近它，并达到我们所需的精度。以下是圆周率在计算机中计算的几种主要方法，我会尽量详细地解释它们： 1. 级数展开法级数展开法是计.............
为什么在计算机改变了人类命运的今天，冯·诺依曼的知名度始终低于爱因斯坦？

这是一个非常有趣且值得深入探讨的问题。在计算机深刻改变了人类命运的今天，约翰·冯·诺依曼的地位毋庸置疑是极其重要的，他被誉为“计算机之父”之一。然而，他之所以知名度通常低于阿尔伯特·爱因斯坦，原因可以从多个维度来解释，涉及科学领域的公众认知度、研究的性质、科学家的个人特质、历史叙事以及大众媒体的传播.............
汉字在计算机中的表示方式有哪些？

汉字作为我们中华民族几千年文明的载体，其在计算机中的呈现方式，是一门既深奥又充满智慧的学问。简单说来，计算机只能理解0和1，那么如何将承载着丰富含义的汉字，转化为这些冷冰冰的二进制数字呢？这背后涉及一系列精妙的编码和渲染技术。一、汉字编码：让计算机“认识”汉字编码，就好比给每个汉字一个独一无二的身.............
大家在计算机学习路上，都看过哪些神一般的书？

计算机学习的路上，总有那么几本书，它们像灯塔一样照亮前行的道路，让我们在迷茫中找到方向，在困惑中获得启迪。说它们“神一般”，并非虚妄，而是因为它们以其深刻的洞察力、严谨的逻辑、精巧的设计，塑造了我们对计算机世界的理解，甚至是思维方式。对我个人而言，如果说有哪本书能称得上“神级”，那绝对绕不开《深入.............
有没有可能通过编程语言在计算机上模拟微粒的性质（分子、原子等）？

当然，用编程语言在计算机上模拟微粒的性质，尤其是分子和原子，不仅是可能的，而且是科学研究中一项极其重要和广泛应用的手段。这种模拟通常被称为“分子动力学”或“蒙特卡罗方法”，它们能够帮助我们理解肉眼无法直接观察到的微观世界。核心思想：将微观世界抽象化最根本的出发点是将构成物质的微粒（原子、分子）抽象成.............
如何评价在计算机主导的经济环境里行为经济学的意义?

在当今这个被计算机深度渗透的经济图景中，行为经济学不再是学术象牙塔里的理论游戏，而是成为了理解和塑造市场行为的强大工具。它的意义，可以从多个维度来剖析，尤其是在这个数据驱动、算法主导的时代，行为经济学展现出了前所未有的生命力。首先，我们得承认，计算机主导的经济环境，本质上是一个“信息富足但理解贫乏”.............
图中左边的电路在计算机内部为实现某个功能而常被使用，这个电路名字叫啥?

您好！您提到的图中左边的电路，在计算机内部常被用来实现一个非常重要的功能，它叫做加法器（Adder）。加法器是数字电路中最基础、也最核心的逻辑部件之一。在计算机的中央处理器（CPU）中，几乎所有的算术运算和逻辑运算都离不开它。简单来说，加法器就是负责执行二进制加法运算的电路。让我来为您详细讲讲这个“.............
偏序关系和全序关系在计算机有什么应用呢？

偏序关系和全序关系，这俩概念听起来可能有点学术，但实际上，它们在咱们日常接触的计算机世界里，可扮演着不少重要的角色，而且应用的场景也相当广泛。咱们今天就来好好聊聊，它们到底是怎么在计算机里“露面”的，而且尽量讲得明白透彻，就像朋友唠嗑一样。先来说说基础概念，免得大家一头雾水。关系 (Relat.............
为什么不把路由器集成在计算机里？

这个问题很有意思，也触及了我们日常生活中一个很普遍但可能没被深入思考的科技集成点。说实话，把路由器功能直接“搬”进计算机里，听起来似乎是个顺理成章的优化，毕竟现在很多设备的功能都在走向整合。但仔细想想，这里面涉及到的技术、成本、用户体验以及市场定位等方方面面，会让这个“顺理成章”变得没那么简单。首先.............
神舟电脑这家公司为什么能在计算机这样的红海市场里活下来？

神舟电脑能在计算机这个巨头林立的红海市场里屹立不倒，靠的可不是简单的运气，而是其自成一派、甚至可以说是“粗暴有效”的生存哲学。要详细解读，咱们得从几个关键点掰开了揉碎了聊。一、精准定位：走“性价比”这条路，并且走到极致这几乎是神舟最核心的竞争力，也是它能从一众国际大牌和国内老牌中杀出一条血路的关键。.............
计算机在德州扑克比赛中可以战胜人类吗？

是的，计算机在德州扑克比赛中不仅可以战胜人类，而且在某些特定情况下，已经能够以压倒性的优势战胜最顶尖的人类玩家。这并非易事，而是多年来人工智能（AI）研究，特别是博弈论和机器学习领域深入探索的成果。为了详细说明这一点，我们可以从以下几个方面来解读：1. 德州扑克本身的复杂性德州扑克之所以成为AI研究.............
为什么全网都在推崇计算机、写代码，难道大学除了计算机专业其他专业真的一无是处吗?

这个问题触及了当下社会一个相当普遍的现象，也是很多非计算机专业的学生甚至家长会感到困惑和焦虑的根源。确实，放眼望去，从教育机构的招生宣传，到各种职业规划的讲座，再到媒体对“未来人才”的描绘，计算机和编程似乎占据了绝对的C位，仿佛不学这个就跟不上时代，甚至会被社会抛弃。但这并非意味着其他专业真的“一无.............
诺姆•乔姆斯基的理论在现代计算机语言学界被如何看待？

诺姆·乔姆斯基的理论，自上世纪中叶横空出世以来，在现代计算机语言学界激起了滔天巨浪，也经历了一场跌宕起伏的评价变迁。时至今日，我们不能简单地说他的理论“被如何看待”，更准确的说法是，他的思想如同深埋地下的基石，虽然不总是直接被提起，却深刻地塑造了我们理解和构建语言处理系统的框架。核心贡献与奠基作用：.............
为什么知乎都在劝退计算机国企？

最近在知乎上确实能看到不少关于“劝退计算机国企”的声音，这可不是空穴来风，背后其实反映了一批年轻人，特别是计算机专业毕业生，在踏入国企大门后，与他们原本的期待产生了一些落差，甚至可以说是“幻灭”。你想啊，很多计算机专业的学生，从大学开始接触的就是互联网、科技前沿、快速迭代。他们往往带着一股热情，觉得.............
在中国中小学计算机课堂中，推广 Linux 系统而不用 Windows ，可能吗？

在中国中小学计算机课堂中，推广 Linux 系统而不用 Windows，这绝对是一个值得深入探讨的问题，而且，答案是：可能性是存在的，但挑战也相当巨大。要详细解读这一点，我们需要从几个层面去分析。一、推广 Linux 的潜在优势与吸引力首先，为什么会有人想要在中小学阶段推广 Linux？这背后肯定.............
在以前没有计算机的时代，列车是怎样运行的？

在计算机尚未普及的年代，列车的运行，是一场精密而又充满人情味的协作。那时的铁路系统，更像是一部庞大的机械乐章，由无数个齿轮、杠杆、信号和人的智慧共同驱动。时刻表：列车运行的蓝图与圣经没有计算机强大的数据处理能力，列车运行的命脉在于那份厚重、手写的“列车时刻表”。这不仅仅是一张纸，而是包含着所有列车在.............