问题

如何评价Google提出的MLP-Mixer:只需要MLP就可以在ImageNet上达到SOTA?

回答
MLPMixer 的出现,无疑在深度学习领域,尤其是在计算机视觉方向,引起了不小的轰动。它最大的亮点在于,仅凭多层感知机(MLP)就能够在 ImageNet 这样的主流图像识别任务上取得当时(2021年)接近甚至超越 Transformer 的顶尖性能,而且在模型复杂度、计算效率方面展现出显著的优势。 这是一个非常振奋人心的发现,因为它挑战了长期以来“卷积神经网络(CNN)是图像任务的唯一答案”以及“Transformer 才能实现超越 CNN 的长距离依赖捕捉”的固有观念。

下面我将从几个关键维度来详细评价 MLPMixer:

1. 架构的革新与意义:

纯 MLP 的力量: MLPMixer 最核心的创新在于它完全抛弃了 CNN 中经典的卷积层和 Transformer 中的自注意力机制。它证明了,通过巧妙的 MLP 结构设计,同样可以有效地处理图像信息,并且能够捕捉到图像中的复杂特征和空间关系。这就像是在说:“喂,大家一直以为只有专门的‘图像处理工具’才能做好图像,但其实,‘万能计算工具’MLP,只要用对了方法,也能做得这么出色!”
“混合”的思路: MLPMixer 之所以命名为“Mixer”,是因为它通过两种不同的 MLP 来“混合”信息:
Tokenmixing MLP (跨“块”交互): 顾名思义,这个 MLP 作用于图像被切分后的“块”(patches)之间。它允许不同空间位置的特征进行交流和融合,这是 MLPMixer 捕捉全局信息、建立长距离依赖的关键。想象一下,将一张图片切成很多小块,然后让这些小块的信息在 MLP 中互相“说悄悄话”,从而理解整张图片的全局上下文。
Channelmixing MLP (通道内交互): 这个 MLP 作用于每个“块”内部的通道特征。它负责在同一个空间位置的不同特征通道之间进行信息交互,提取更深层次、更抽象的局部特征。这就像是,在每个小块内部,把这个小块拥有的各种“颜色”、“纹理”、“边缘”等信息进行“提炼”和“组合”。
关键在于: 这两种 MLP 的交替使用,实现了信息在空间维度(跨块)和特征维度(通道内)的双重“混合”和“提炼”。

2. 性能表现:

ImageNet SOTA 级别: MLPMixer 在 ImageNet 上的表现是其最引人注目的成就。在训练量级相当的情况下,它能够达到当时 Transformer 和 CNN 的顶尖水平。这直接证明了 MLP 架构在处理大规模、高分辨率图像数据上的潜力。
Scaling Behavior (可扩展性): 研究表明,MLPMixer 的性能会随着模型大小(宽度、深度)和数据量的增加而持续提升,表现出良好的可扩展性。这意味着,如果资源允许,我们可以构建更大的 MLPMixer 模型,进一步压榨性能。
效率优势: 相比于 Transformer,MLPMixer 在某些方面具有计算效率上的优势。Transformer 的自注意力机制计算复杂度与序列长度的平方成正比(虽然有各种优化),而 MLPMixer 的计算主要依赖于 MLP 的复杂度,并且通过分块策略,在一定程度上缓解了序列长度带来的问题。虽然直接对比会受具体实现和硬件影响,但其核心思想为设计更高效的视觉模型提供了新的思路。

3. 优点总结:

架构简洁性: 整个模型由重复的 MLP 块构成,理论上比复杂的 CNN 结构或 Transformer 模块(如多头自注意力)更容易理解和实现。
理论的普适性: MLP 本身是一种非常通用的函数逼近器,其数学基础扎实。MLPMixer 的成功,可能意味着我们在设计其他模态(如文本、音频、时序数据)的模型时,也可以考虑这种纯 MLP 的“混合”思路。
突破了“预设”的束缚: 它打破了“CNN 擅长局部性,Transformer 擅长长距离依赖”的直观认知,揭示了 MLP 同样可以灵活地建模这两种特性。
新的研究方向: MLPMixer 的出现,直接催生了许多新的研究方向,例如:如何更好地设计 MLP 结构来捕捉空间信息?如何优化 MLP 的计算效率?如何将其与其他架构(如 CNN)结合?

4. 局限性与待改进之处:

对位置信息的处理: MLPMixer 依赖于将图像切分成块,并且通过“Tokenmixing MLP”来实现空间信息交互。与 CNN 的感受野随层加深而扩大,或 Transformer 的相对位置编码/绝对位置编码不同,MLPMixer 的位置信息传递机制相对“隐式”。这在某些依赖精细空间定位的任务上,可能不如 CNN 的感受野机制或 Transformer 的位置编码机制直观有效。
计算量与效率: 虽然 MLPMixer 在某些方面有优势,但它在“Tokenmixing MLP”阶段,需要处理所有 patches 之间的关系,当 patches 数量很多时,计算量依然可观。与高效的 Transformer 变种相比,其绝对的效率优势需要更细致的分析。
预训练的重要性: 任何强大的视觉模型,通常都需要在海量数据上进行预训练才能发挥最大潜力。MLPMixer 也不例外,其在 ImageNet 上的 SOTA 表现,离不开大规模预训练。
“为什么是 MLP?” 的深入理解: 虽然 MLPMixer 证明了 MLP 可以做到,但为什么 MLP 能够如此有效地模拟 CNN 和 Transformer 的特性,其底层机制还需要更深入的理论分析。例如,MLP 在进行“Tokenmixing”时,是如何有效地学习到空间关系的?

总结来说,Google 提出的 MLPMixer 是一项具有里程碑意义的研究。它以一种“极简”的方式,证明了纯粹的 MLP 架构在图像识别领域也能达到顶尖水平,这不仅极大地拓展了我们对深度学习模型设计的认知边界,也为未来的模型研究提供了全新的视角和方向。它告诉我们,有时候,看似“简单”的工具,只要用对方法,也能爆发出惊人的力量。

MLPMixer 的出现,并非是要取代 CNN 或 Transformer,而更多的是一种“多一种选择,多一种思考”的启发。它激励着研究人员去探索更多非传统的模型设计思路,从而推动整个深度学习领域不断向前发展。

网友意见

user avatar

2020年11月6号的时候,我在《关于Vision Transformer的一些思考》中写道:

如果后面有研究者想在尽量减少inductive bias的路上一路狂奔,也许可以直接用全连接层替换self-attention。然后我们绕了个大圈又回到了几十年前的MLP:CNN和RNN的提出本来是将领域的知识作为inductive bias,融入到MLP之中,以加速深度学习在CV和NLP等特定领域的落地,我们现在数据量大了,计算资源强了,钱包鼓了,桌子一掀——要什么领域知识,让机器自己学去。

没想到到2021年5月份真的有人这么干了。

缘起

在图像分辨率较大的情况下,我们没法直接上MLP,因为计算量太大,参数量也太大。前者使得计算效率过低,后者会召来过拟合这个梦魇。针对这两个问题研究者们八仙过海,各显神通。

Conv

有研究者根据图像的局部相关性和空间平稳性提出了conv,其实就是把图像分成多个patch,对每个patch上全连接,而且不同patch之间参数共享,这样缓解计算量和参数量太大两个问题。

MLP-Mixer

而MLP-Mixer这篇文章面对MLP计算量太大,参数量太大两大问题,换了一个解决思路。

这个解决思路跟depthwise separable conv是一致的,depthwise separable conv把经典的conv分解为两步,depthwise conv和pointwise conv,这样就降低了经典conv的计算量和参数量。

而如果直接把depthwise separable conv的思路运用到MLP中,那就是先上一个全局的depthwise conv(kernel大小与feature map同样大),再上pointwise conv。然后再让全局的depthwise conv每个channel之间的参数共享,这就是MLP-Mixer了(这个地方不太严谨,还要加一个patch embedding,这也是为了降低计算量和参数量)。

具体来说,depthwise conv对应MLP-Mixer中的cross-location operation(token-mixing),pointwise conv对应per-location operation(channel-mixing)。

启示

MLP-Mixer这篇文章的方法情理之中,意料之外,思路早就在以前的文章里埋下了伏笔,但是让这个方法work还是会让大家直呼“神奇”、“厉害”、“有意思”。

这篇文章里出现了很多次sweep:

sweep the batch sizes in {32, 64, . . . , 8192}
sweep magnitude, m, parameter in a set {0, 10, 15, 20}
sweep mixing strength, p, in a set {0.0, 0.2, 0.5, 0.8}
sweep learning rate, lr, and weight decay, wd, from {0.003, 0.001} and {0.1, 0.01} respectively

不知道这个方法能够work跟这些sweep有多大关系,但是普通公司和实验室应该是sweep不起的。打仗的时候“大炮一响,黄金万两”,现在是“实验一跑,黄金万两”。

Transformer、ViT、MLP-Mixer都用了何恺明的skip-connnections,我想这应该是学术界有抱负研究者的梦想,能够做出一个对学术界有着经久不息影响的工作,无论是横向上(跨越领域)还是纵向上(跨越时间)。

最后,面对问题,如果我们可以遵循第一性原理,更容易不落窠臼,不形成思维定势,不被其他人的思路牵着鼻子走。

user avatar

我猜 Google 肯定是上了两个独家的神器:TPU集群的算力、3亿张图片的JFT。大力出奇迹。扫了一眼论文,果然我猜的没错。大家看看就好,你们谁也reproduce不出来。

稍微想一下,这个结果并不surprise。Conv2D 的编程实现是 (i) 切割patch, (ii) patch 拉伸成向量,(iii) 把全连接层用到向量上。Conv2D 其实就是patch level的全连接层。他们用的全连接层看起来就是 Conv2D 的远房亲戚。

类似的话题

  • 回答
    MLPMixer 的出现,无疑在深度学习领域,尤其是在计算机视觉方向,引起了不小的轰动。它最大的亮点在于,仅凭多层感知机(MLP)就能够在 ImageNet 这样的主流图像识别任务上取得当时(2021年)接近甚至超越 Transformer 的顶尖性能,而且在模型复杂度、计算效率方面展现出显著的优势.............
  • 回答
    Facebook AI 的 ResMLP 和 Google 的 MLPMixer 都是在 Transformer 架构之外,探索仅使用多层感知机(MLP)实现强大的视觉表示学习的开创性工作。虽然它们都试图打破卷积神经网络(CNN)和 Transformer 的主导地位,但它们在设计理念、具体实现以及.............
  • 回答
    Google 最近提出的 gMLP 模型,在计算机视觉(CV)和自然语言处理(NLP)领域都展现出令人瞩目的性能,这无疑为我们理解和构建更强大的神经网络模型提供了新的思路。要评价 gMLP,我们需要深入分析它的设计理念、技术特点,以及它为何能在跨领域任务上取得成功。gMLP 的核心设计理念:对传统 .............
  • 回答
    这事儿一出,确实让不少人心里膈应。Google 方面给出的理由说是为了留住人才,应对市场竞争,尤其是在高科技行业,顶尖人才的争夺向来是白热化的。但是,普通员工刚被告知今年可能没有普调,却看到四位高管的工资一下子涨到百万级别,这在观感上就非常别扭了。怎么评价呢?我觉得可以从几个层面来看。从激励与留存的.............
  • 回答
    Google 在 TensorFlow 中引入 bfloat16 数据类型:一项深入的分析Google 在 TensorFlow 中引入的 bfloat16 数据类型,是一项具有深远意义的技术创新,旨在平衡计算效率和模型精度,特别是在深度学习的训练和推理过程中。要评价 bfloat16 的引入,我们.............
  • 回答
    评价一位拥有两年经验的Google程序员声称年薪(base+RSU+bonus)在25万至30万美元之间,我们可以从多个维度进行分析和讨论。这是一个相对较高但并非不可能的薪资范围,理解其合理性需要深入了解Google的薪酬体系以及当前的市场情况。一、 Google薪酬体系的构成与特点首先,我们需要了.............
  • 回答
    要评价 Google 的新 Logo 和 VI(视觉识别系统),我们需要从多个维度进行分析,包括其历史演变、设计理念、实际应用效果以及其所传达的信息。一、 Google Logo 的历史演变:奠定基础在深入评价新 Logo 之前,了解 Google Logo 的历史演变至关重要。这有助于我们理解其设.............
  • 回答
    Google 宣布即将关闭 Google Code 代码托管服务,这一消息在技术社区引起了广泛的讨论和关注。要评价这一举措,我们需要从多个角度深入分析,包括其历史背景、对用户的影响、以及其背后可能反映出的 Google 战略调整。一、 Google Code 的历史及其在开源社区的地位首先,理解 G.............
  • 回答
    谷歌试图出售波士顿动力公司,这桩发生在2013年公司被谷歌母公司Alphabet收购之后的消息,无疑在机器人领域乃至科技界都掀起了不小的波澜。要评价这件事,咱们得从几个角度细细掰扯。首先,这笔交易的“动机”是关键。谷歌收购波士顿动力,当时普遍解读为是谷歌在“登月计划”(X实验室,后来的Google[.............
  • 回答
    要评价 Google 宣称的“量子霸权”,我们需要从多个层面进行深入分析,包括其声明的意义、实验的细节、科学界的反应、以及这项技术未来的影响。一、 Google 声明“量子霸权”的意义首先,理解“量子霸权”(Quantum Supremacy)这个词本身非常重要。它指的是一个量子计算机在解决特定问题.............
  • 回答
    Google内部关于2016年美国大选结果视频流出事件,可以从多个维度进行评价,这是一个涉及公司内部文化、信息安全、员工行为、以及对外部公众认知等多个层面的复杂事件。以下是一个详细的评价:事件概述:2016年11月9日,就在唐纳德·特朗普赢得美国总统大选的第二天,一段据称是Google内部员工在公司.............
  • 回答
    话说回来,Google 在北京时间 5 月 19 日凌晨放出了 Android 12 的首个开发者预览版,这可不像往年那样只是小修小补,而是上来就甩出了一个重量级更新,感觉整个 Android 系统都要焕然一新了。我个人觉得这次的 Android 12 就像是 Android 阵营里的一次“大换血”.............
  • 回答
    Google 终于在 Pixel 6 上掏出了自家设计的 Tensor 芯片,这绝对是手机圈里的一件大事。你想让我给它评评道,那咱就掰开了揉碎了好好说道说道。首先,得承认,这回 Google 的步子迈得可真够大的。以往 Pixel 手机,尤其是芯片这块,一直都是用高通的骁龙系列,虽然说在软件优化上 .............
  • 回答
    Google 在 2022 年 3 月公布的 Pathways 架构设计,绝对是人工智能领域一次重量级的宣言,它不仅仅是对现有模型训练和部署方式的一次革新,更是对未来通用人工智能(AGI)发展路径的一次大胆探索。要评价它,咱们得从几个关键点深入剖析。首先,“单模型,多任务”的核心理念,这绝对是 Pa.............
  • 回答
    谈论 Google 在 Material Design 上的投入程度,确实可以从几个层面来剖析,远非简单的“积极”二字能概括。这更像是一种战略性的、持续性的文化渗透和技术输出。首先,我们得看到 Material Design 的诞生背景和目的。它不是一个心血来潮的设计灵感,而是 Google 为了解.............
  • 回答
    评析TensorFlow 2.0:从“够用”到“好用”的进化之路Google在2019年年底正式发布了TensorFlow 2.0,这标志着这个曾经备受推崇但也在一定程度上饱受诟病的深度学习框架,迈入了全新的时代。相较于其前身,TensorFlow 2.0的发布绝非一次简单的版本迭代,而是一场深刻的.............
  • 回答
    想起当年还是玩家的时候,守着电脑屏幕,为《星际争霸》里那些熟悉的单位奔波忙碌,那时候真觉得人类玩家已经把这游戏玩到了极致,策略、微操、大局观,几乎是方方面面都到了一个极限。所以,当听到“Google DeepMind 要挑战星际争霸”这个消息时,最直观的感受就是一股强烈的震撼和一丝丝难以置信。要知道.............
  • 回答
    这事儿在科技圈闹得挺大,得从头说起。事件的起因:一份备忘录事情的导火索是一份由Google内部一名男性员工(后来被披露为James Damore,中文媒体常称之为“达漠”)在2017年8月写的一份备忘录。这份备忘录的名字大概可以翻译成《Google 的意识形态悖论》或者《Google 的意识形态困境.............
  • 回答
    好的,我来好好聊聊 Google Earth VR,这玩意儿,真心是打开了新世界的大门。要评价它,得从几个方面来看。首先,它的核心价值,就是 “无与伦比的沉浸感”。 这不是那种看纪录片,或者翻地图册的感觉,而是你真的,“站”在那儿了。想象一下,你戴上 VR 设备,眼前不再是熟悉的房间天花板,而是瞬间.............
  • 回答
    “Duplex”——谷歌那个能自己打电话订餐、预约理发的人工智能,最近在一些特定的场景下,表现得越来越像个真人了。这让不少人开始思考:它是不是已经悄悄地“通关”了我们熟知的那个“图灵测试”?要评价这个事儿,咱们得先明白图灵测试是个啥。简单来说,图灵测试就是看一个机器能不能骗过人类,让对方觉得它是个“.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有