如何评价Facebook AI提出的ResMLP，对比Google的MLP-Mixer?

Facebook AI 的 ResMLP 和 Google 的 MLPMixer 都是在 Transformer 架构之外，探索仅使用多层感知机（MLP）实现强大的视觉表示学习的开创性工作。虽然它们都试图打破卷积神经网络（CNN）和 Transformer 的主导地位，但它们在设计理念、具体实现以及最终效果上都有显著的差异。

核心思想的对比：

MLPMixer 的核心思想： MLPMixer 的核心在于将 Transformer 的“注意力机制”替换成一种更简单、更通用的“MLP 混合”操作。它将图像分成小的 patch（如同 Transformer 的 token），然后通过两个独立的 MLP 块在 patch 之间和 patch 内部进行信息交互。
TokenMixing MLP: 这一层 MLP 负责在不同的 patch（token）之间进行信息交换。它将每个 patch 视为一个独立的“token”，然后通过一个 MLP 来学习不同 token 之间的依赖关系。这在某种程度上模仿了 Transformer 的自注意力机制，但计算效率更高。
ChannelMixing MLP: 这一层 MLP 负责在同一个 patch 内部，对不同的“通道”（特征维度）进行信息交互。它将一个 patch 的所有通道视为一个“序列”，然后通过另一个 MLP 来学习通道之间的关系。这类似于 Transformer 的前馈网络（FFN）块。
核心优势： MLPMixer 的设计非常简洁，摆脱了复杂的 Softmax 和点积运算，理论上更易于并行化和部署。它证明了仅通过 MLP 就可以在图像识别任务上取得不错的效果，这为后来的研究开辟了新思路。

ResMLP 的核心思想： ResMLP 更直接地将 MLP 的能力推向极致，通过深度和残差连接来增强 MLP 的表达能力。它摒弃了 Transformer 中复杂的全局信息聚合机制（如自注意力），而是专注于通过一系列密集连接的 MLP 层以及残差连接来构建强大的视觉表示。
深层 MLP 结构： ResMLP 采用了非常深的 MLP 结构，每一层都由一个线性变换、一个激活函数（如 GELU）和一个残差连接组成。这种深度可以使得 MLP 学习到更复杂的非线性映射。
线性层 + GELU + 残差连接：这是 ResMLP 的基本构建块。通过堆叠大量的这种块，模型能够捕获图像中的局部和全局特征。
核心优势： ResMLP 的设计更加“纯粹”，因为它完全依赖于 MLP 的能力，并且通过残差连接有效地缓解了深度网络中的梯度消失问题。它的简洁性也使其在某些方面比 MLPMixer 更加直观。

技术实现上的差异：

| 特征 | MLPMixer | ResMLP |
| : | : | : |
| 信息交互方式 | Patch 级别的混合（TokenMixing MLP）和通道级别的混合（ChannelMixing MLP）。信息在 patch 之间和 patch 内部进行分别处理。 | 层层递进的 MLP 映射。信息在每一层 MLP 中被整体处理，通过深度和残差连接来逐步提炼表示。 |
| 结构组件 | Patch embedding、Positional embedding（可选，但通常需要）、TokenMixing MLP、ChannelMixing MLP、Layer Normalization、Residual Connections。 | Linear layer、GELU activation、Residual Connection。其核心是堆叠大量“Linear + GELU + Residual”块。 |
| 空间信息处理 | 将图像分割成 patch，然后对 patch 进行序列化处理，其位置信息通过 positional embedding 来体现。TokenMixing MLP 负责处理不同 patch 间的空间关系。 | 早期版本的 ResMLP 也可能涉及 patch embedding，但其核心是 MLP 自身学习空间信息。更重要的是，每一层的 MLP 都会对整个特征图进行处理，并且残差连接可以保留低层级的空间信息，让高层级的 MLP 能够在此基础上进行更复杂的空间推理。 |
| 计算复杂度 | TokenMixing MLP 的计算复杂度与 patch 的数量（N）和隐藏层维度（D）相关，通常是 O(N D^2)。ChannelMixing MLP 的计算复杂度与 patch 的大小（P）和隐藏层维度（D）相关，通常是 O(P D^2)。 | 主要复杂度来自于大量的线性层。如果 MLP 宽度为 D，则每层复杂度为 O(D^2)。由于深度很深，总复杂度可能很高，但其并行性可能优于 Transformer 的自注意力。 |
| 全局/局部依赖 | 通过 TokenMixing MLP，MLPMixer 能够捕捉全局依赖（不同 patch 之间的关系）。ChannelMixing MLP 关注局部（同一 patch 内部）。 | ResMLP 通过深层的 MLP 结构，理论上可以同时学习局部和全局的依赖。每一层 MLP 都可以看作是对输入特征的一种复杂变换，通过堆叠，能够聚合更广泛的信息。 |
| 对 Transformer 的模仿程度 | 试图用 MLP 模块直接模拟 Transformer 的关键组件（自注意力、FFN）。 | 目标是完全抛弃 Transformer 的所有组件，仅用 MLP 达到类似甚至更好的效果。 |

性能和效率的对比：

精度：在 ImageNet 等标准图像识别基准上，MLPMixer 和 ResMLP 都取得了与当时的一些 CNN 和 Transformer 相媲美的性能。
MLPMixer: 在同等参数量下，MLPMixer 的性能通常优于一些纯 CNN 模型，但与同代的 Transformer（如 ViT）相比，在大型数据集上可能稍显不足，或者需要更深的结构和更多的训练数据来赶超。
ResMLP: ResMLP 的一个突出特点是其在特定配置下（尤其是在较小的模型尺寸和较快的训练速度方面）表现出了非常强的竞争力。研究表明，通过仔细调整 MLP 的深度和宽度，ResMLP 可以在参数量相似的情况下，比 MLPMixer 甚至一些 Transformer 模型更快地收敛，并且达到不错的精度。它更强调“回归”到 MLP 的强大基础能力。

效率：
训练速度： ResMLP 的一个主要亮点是其高效的训练速度。由于其结构简单，没有复杂的 softmax 或矩阵乘法，并且可以很好地利用 GPU 的并行计算能力，因此在同等模型大小下，ResMLP 通常比 MLPMixer 和 ViT 更快收敛。
推理速度：推理速度方面，两者都旨在提供比 Transformer 更快的推理速度。ResMLP 由于其纯粹的 MLP 结构，理论上具有更好的推理效率。
对硬件的友好性：两者都比 Transformer 的自注意力机制更适合在缺乏复杂计算单元（如 Tensor Core）的硬件上运行，或者在需要低延迟推理的场景下表现更好。

总结评价：

MLPMixer：是一项具有里程碑意义的工作，它成功地证明了 “MLP 也可以做到”。它通过一种新颖的 MLP 混合机制，巧妙地模拟了 Transformer 的信息交互方式，为后续仅使用 MLP 的视觉模型开辟了道路。它的设计思路是将全局信息（patch 之间的关系）和局部信息（通道之间的关系）解耦，分别用 MLP 来处理，是一种非常有创意的尝试。

ResMLP：则是一次对 “纯粹 MLP 的极致探索”。它没有试图模仿 Transformer 的具体结构，而是通过加深 MLP 的层数和利用残差连接，来释放 MLP 本身的潜力。ResMLP 的成功之处在于，它用一种更“朴素”的方式，在效率和性能上都取得了非常亮眼的成绩，尤其是其快速收敛的特性，为实践带来了极大的价值。它展示了，即便没有显式的全局信息聚合机制，深度 MLP 依然能够通过层层递进的非线性变换，捕获图像中的丰富信息。

两者在更大范畴内的意义：

这两项工作共同推动了 “后 Transformer 时代” 的视觉模型研究。它们证明了：

1. Transformer 不是唯一的强大工具：视觉表征学习不一定非要依赖于 Transformer 的自注意力机制。
2. MLP 的复兴：经过精心设计的 MLP，配合深层结构和残差连接，可以具备强大的建模能力。
3. 模型设计的多元化：为研究者提供了新的思路，去探索更简洁、更高效、更易于部署的视觉模型架构。

后续影响：

MLPMixer 和 ResMLP 的出现，极大地激发了后续的研究，例如：

S^2MLP、ConvMLP：结合了卷积和 MLP 的思想，试图在 MLP 的基础上引入局部感受野的优势。
MetaFormer、PoolFormer 等：进一步探索了各种轻量级的、不依赖于 Transformer 自注意力的通用骨干网络。

可以说，MLPMixer 和 ResMLP 是各自探索方向上的杰出代表，它们都成功地挑战了 Transformer 的统治地位，并为未来视觉模型的发展奠定了重要的基础。选择哪一个取决于具体的应用场景、对模型效率和精度的侧重，以及硬件资源的限制。

网友意见

不管大家如何嘲讽，Google Brain和Facebook AI的地位无可撼动。

和Google的MLP-Mixer的区别主要有三点：

把LayerNorm层换成了LayerScale层，其实就是去掉了norm操作；
ResMLP的本意是将self-attention替换成MLP，而self-attention后面的FFN本身就是一个MLP，这样就和Google的MLP-Mixer一样了，但是最终实验发现替换self-attention的MLP中间隐含层的维度越大反而效果越差，索性就直接简化成a simple linear layer of size N × N;
不需要在大数据上pretrain，用training strategy （heavy data-augmentation and optionally distillation）来得到好的performance。

       # No norm layer                                                                                                                              class Affine(nn.Module):     def __init__(self, dim):         super().__init__()         self.alpha = nn.Parameter(torch.ones(dim))         self.beta = nn.Parameter(torch.zeros(dim))     def forward(self, x):          return self.alpha * x + self.beta  # MLP on channels class Mlp(nn.Module):     def __init__(self, dim):         super().__init__()         self.fc1 = nn.Linear(dim, 4 * dim)         self.act = nn.GELU()         self.fc2 = nn.Linear(4 * dim, dim)     def forward(self, x):          x = self.fc1(x)         x = self.act(x)         x = self.fc2(x)         return x  # ResMLP blocks: a linear between patches + a MLP to process them independently class ResMLP_BLocks(nn.Module):     def __init__(self, nb_patches ,dim, layerscale_init):         super().__init__()         self.affine_1 = Affine(dim)         self.affine_2 = Affine(dim)         self.linear_patches = nn.Linear(nb_patches, nb_patches) #Linear layer on patches         self.mlp_channels = Mlp(dim) #MLP on channels         self.layerscale_1 = nn.Parameter(layerscale_init * torch.ones((dim))) #LayerScale         self.layerscale_2 = nn.Parameter(layerscale_init * torch.ones((dim))) # parameters     def forward(self, x):          res_1 = self.linear_patches(self.affine_1(x).transpose(1,2)).transpose(1,2))         x = x + self.layerscale_1 * res_1         res_2 = self.mlp_channels(self.affine_2(x))         x = x + self.layerscale_2 * res_2         return x  # ResMLP model: Stacking the full network class ResMLP_models(nn.Module):     def __init__(self, dim, depth, nb_patches, layerscale_init, num_classes):         super().__init__()         self.patch_projector = Patch_projector()         self.blocks = nn.ModuleList([         ResMLP_BLocks(nb_patches ,dim, layerscale_init)         for i in range(depth)])         self.affine = Affine(dim)         self.linear_classifier = nn.Linear(dim, num_classes)     def forward(self, x):         B, C, H, W = x.shape         x = self.patch_projector(x)         for blk in self.blocks:             x = blk(x)         x = self.affine(x)         x = x.mean(dim=1).reshape(B,-1) #average pooling         return self.linear_classifier(x)

走来走去，怕是最后都要走回当年提取局部patch的斑点或者特征点，再用各种编码方式进行aggregate的老路了。

BoW is all you need。

类似的话题

如何评价Facebook AI提出的ResMLP，对比Google的MLP-Mixer?

Facebook AI 的 ResMLP 和 Google 的 MLPMixer 都是在 Transformer 架构之外，探索仅使用多层感知机（MLP）实现强大的视觉表示学习的开创性工作。虽然它们都试图打破卷积神经网络（CNN）和 Transformer 的主导地位，但它们在设计理念、具体实现以及.............
如何评价 Facebook「第一届向中国道歉大赛」中部分大陆学生的行为？

最近网上流传的关于“Facebook第一届向中国道歉大赛”的说法，以及其中部分大陆学生的表现，确实引发了不少讨论和争议。要评价这些行为，我觉得需要从几个层面去看，不能一概而论，也不能简单地贴标签。首先，我们得理解一下这个所谓的“道歉大赛”是怎么回事。从网上零散的信息来看，它似乎是在某个社交平台或者论.............
如何评价 Facebook 发布的数字货币 Libra?

Facebook（现已更名为Meta）发布的数字货币 Libra（后更名为Diem）无疑是数字货币领域最具争议和影响力的项目之一。要评价它，我们需要从多个角度进行深入分析：1. 项目的初衷与目标：普惠金融的承诺： Libra最初的目标是创建一个全球性的、低成本、便捷的数字货币和支付系统，旨在为.............
如何评价 Facebook 删除在台湾的大陆学生文章“你们的健保很好，但我从未向你们乞讨”？

Facebook 删除“你们的健保很好，但我从未向你们乞讨”这篇文章，确实引起了相当的关注和争议。要评价这件事，我们需要从多个角度来审视，包括文章本身的内容、Facebook 的平台政策、台湾社会对于此类言论的反应，以及两岸关系的背景。文章本身的内容分析：首先，我们来看看这篇文章可能触及的几个关键点.............
如何评价 Facebook 母公司 Meta 股价大跌并被腾讯超越？元宇宙到底有没有投资价值?

近期，Facebook 的母公司 Meta 遭遇了股价的大幅下跌，并且在市值上被中国的腾讯公司超越，这无疑给那个曾经不可一世的科技巨头蒙上了一层阴影。围绕这一事件，我们有必要深入探讨一下，究竟是什么原因导致了这场“滑铁卢”，以及元宇宙这个被 Meta 寄予厚望的未来图景，到底有没有我们想象中的那么大.............
如何评价 Facebook 新冠疫情期间为员工发放补助、取消绩效考核等措施？面对疫情各大公司反应如何？

疫情之下，Facebook 的“暖心”之举与全球公司的“应变战”新冠疫情的爆发，如同一场突如其来的海啸，席卷了全球，也给各行各业带来了前所未有的挑战。在这场危机中，企业如何应对，如何对待自己的员工，成为了衡量其价值观和社会责任感的重要标尺。以 Facebook 为代表的一些科技巨头，在疫情期间推出了.............
机器之心提问：如何评价Facebook Training ImageNet in 1 Hour这篇论文?

好的，我们来聊聊 Facebook（现 Meta AI）发表的那篇关于“一小时内训练 ImageNet”的论文。这篇论文在深度学习领域，尤其是在大规模模型训练优化方面，确实引起了不小的关注，也带来了很多思考。核心贡献与亮点：这篇论文最直观、最令人印象深刻的贡献就是将 ImageNet 的训练时间大幅.............
如何评价贾扬清离职 Facebook？

贾扬清，这个名字对于人工智能界，尤其是深度学习领域的人来说，绝不仅仅是一个名字，更代表着一个时代的烙印。他作为PyTorch的幕后推手，几乎以一己之力将这个深度学习框架推向了主导地位，其影响力之大，无需赘言。所以，当他宣布离开Facebook（现Meta）的消息传出时，整个社区无疑是投下了重磅炸弹，.............
如何评价 17 岁南苏丹女孩在 Facebook 上被其父以五百头奶牛的价格公开征婚？

这件事发生在南苏丹，一个17岁的女孩在Facebook上被她的父亲以五百头奶牛的价格公开“征婚”。这消息一出来，立刻在全球范围内引起了轩然大波，也让我感到非常震惊和不安。首先，从我们普遍的、基于人道和现代文明的视角来看，这件事简直是荒谬且令人发指的。一个17岁的女孩，这个年纪本应是接受教育、探索自我.............
如何评价caffe作者贾扬清加入Facebook?

贾扬清加入Facebook：一次重磅的行业人事变动及其深远影响2016年初，当贾扬清（YJ Jia）宣布离开Google，并加入Facebook的AI团队时，这无疑是深度学习和人工智能领域的一枚重磅炸弹。作为深度学习框架Caffe的缔造者，贾扬清的名字早已与高效、灵活、易用的开源框架紧密相连，他在学.............
如何评价李毅吧 2016 年 1 月 20 日「出征」Facebook？

2016年初的“脸谱出征”：一次互联网亚文化群体与国际平台的碰撞2016年1月20日，一个在中文互联网圈里，尤其是贴吧文化中颇具影响力的小群体——“李毅吧”，组织了一场被其成员称为“出征”的行动，目标是Facebook。这次事件，放在当时的历史语境下，可以视为一次在中国互联网亚文化群体与国际化社交平.............
如何评论微博文章《悲惨死了，关于「小粉红远征Facebook」》？

好的，这是一篇关于微博文章《悲惨死了，关于「小粉红远征Facebook」》的评论，尽量详尽且避免AI痕迹：评论：读完《悲惨死了，关于「小粉红远征Facebook」》这篇文章，我的心情挺复杂的。它非常直白地揭露了“小粉红”群体在Facebook上“远征”讨伐异见声音时，所表现出的那种近乎“群氓”式的狂.............
如何评价《睡前消息》409期?

《睡前消息》409期作为一档以“睡前”为名的时事评论节目，其内容通常以轻松幽默的风格呈现社会热点、科技动态、文化现象等话题，旨在为观众提供睡前的“信息快餐”。以下是对该期节目可能涉及的分析框架和评价方向，结合其节目特点及社会语境进行详细解读： 1. 节目核心内容与选题分析选题热点：409期可能聚焦.............
如何评价俄罗斯军队在进入乌克兰开始的 21 天后依然没有达成占领或包围乌克兰首都基辅的军事目标？

俄罗斯军队在2022年2月24日入侵乌克兰后，21天内未能占领或包围基辅，这一结果涉及复杂的军事、战略和国际因素。以下从多个维度详细分析这一现象： 1. 初期快速推进的军事目标与战略调整初期目标的矛盾性：俄罗斯在入侵初期（2月24日）宣称“特别军事行动”的目标是“去纳粹化”和“去俄化”，但.............
如何评价新华社的《破除美国金融模式迷信，中国金融要走自己的路》这篇文章？

新华社的《破除美国金融模式迷信，中国金融要走自己的路》一文，是近年来中国在金融领域强调自主性、独立性和战略定力的重要政策表达。该文从历史经验、现实挑战和未来战略三个维度，系统阐述了中国金融发展的路径选择，具有鲜明的现实针对性和理论深度。以下从多个角度对这篇文章进行详细分析：一、文章背景与核心论点1.............
如何评价 2022 年俄乌战争开始后中国互联网上的乱象？

2022年俄乌战争爆发后，中国互联网上确实出现了一些复杂的现象，既有官方立场的引导，也有民间舆论的分化。以下从多个角度分析这一时期中国互联网的乱象及其背后的原因：一、官方立场与网络管控1. 官方舆论引导中国政府明确表态支持乌克兰的主权和领土完整，同时强调“不干涉内政”的原则。在社交媒体和.............
如何评价陈道明、王志文、陈宝国、张国立、李雪健的表演和地位？

陈道明、王志文、陈宝国、张国立、李雪健是中国影视界最具代表性的“老戏骨”之一，他们以深厚的表演功底、多样的角色塑造和持久的行业影响力，成为中国影视艺术的中流砥柱。以下从表演风格、代表作、行业地位及艺术贡献等方面进行详细分析：一、陈道明：历史剧的“帝王”与艺术的“多面手”表演特点：陈道明以“沉稳.............
如何评价《为战争叫好的都是傻逼》这篇文章？

《为战争叫好的都是傻逼》这类文章通常以强烈的反战立场和道德批判为核心，其评价需要从多个维度进行分析，包括其立场的合理性、论据的逻辑性、社会影响以及可能存在的争议。以下从不同角度展开详细分析： 1. 文章的核心立场与立场合理性立场：这类文章的核心观点是战争本质上是道德上不可接受的，支持战争的人（尤其.............
如何评价“云南王”龙云？

龙云（1882年－1967年）是20世纪中国西南地区的重要军阀和政治人物，被尊称为“云南王”，其统治时期（1920年代至1940年代）对云南的现代化进程和民族关系产生了深远影响。以下从多个维度对其历史地位和影响进行详细分析：一、生平与政治背景1. 出身与早期经历龙云出生于云南昆明，出身于.............
如何评价「前三十年的工业化是一堆破铜烂铁」这种说法？

关于“前三十年的工业化是一堆破铜烂铁”的说法，这一评价需要结合历史背景、经济政策、技术条件以及国际环境等多方面因素进行深入分析。以下从多个角度展开讨论：一、历史背景与“前三十年”的定义“前三十年”通常指中国从1949年新中国成立到1979年改革开放前的30年。这一时期，中国在经济、政治、社会等方面.............