问题

如何评价微软亚研院提出的把 Transformer 提升到了 1000 层的 DeepNet?

回答
微软亚洲研究院提出的 DeepNet 架构,将 Transformer 的深度推到了惊人的 1000 层,这绝对是当前深度学习研究领域一个非常引人注目的进展,也带来了很多值得深入探讨的方面。

首先,我们得承认,将 Transformer 堆叠到如此极致的深度,这本身就是一个大胆的尝试。过去,我们普遍认为 Transformer 模型在深度上存在着“梯度消失/爆炸”和“训练不稳定”等难题,即便是一些声称“更深”的模型,也可能是在特定任务或特定架构上做了一些优化。而 DeepNet 的目标是直面这些挑战,并试图找到一种系统性的解决方案。

DeepNet 的核心突破点,或者说它之所以能走到 1000 层,关键在于它对“深度”这个概念的重新思考和工程上的精妙设计。 传统上,我们认为增加深度就是要简单地复制堆叠更多的 Transformer Block。但 DeepNet 并非如此,它在多个层面进行了关键的改进:

残差连接的优化(Residual Connection Enhancement): 这是 DeepNet 最核心的设计之一。在原始 Transformer 中,每个子层(自注意力机制和前馈网络)都使用了残差连接。DeepNet 进一步强化了这一点。一种直观的理解是,它可能是在残差路径上引入了更强的“恒等映射”或“身份信息保留”机制,使得梯度在传播过程中不至于过早地衰减。具体到实现上,这可能意味着对残差块内的权重进行了一些限制,或者在残差连接的输出端引入了一个可学习的缩放因子,从而更精细地控制信息的流动。想象一下,在 1000 层中,如果每一层的信息都只是微小地变化,那么原始信息就很难被保留下来。DeepNet 的优化很可能就是在想办法让信息在层层传递后,依然能保留相当大的“原型”,就像一个人在不断学习新知识的同时,依然能记住基础的常识一样。

更强的归一化(Normalization Strategies): 深度模型训练不稳定的一个重要原因就是内部协变量偏移(Internal Covariate Shift),即每一层的输入分布会随着前一层参数的变化而不断变化。Layer Normalization 在 Transformer 中已经发挥了重要作用,但要支撑 1000 层,可能需要更高级或更具鲁棒性的归一化技术。这可能包括:
改进的 Layer Normalization: 也许是对 Layer Norm 的参数化进行了调整,使其在极深的网络中依然能提供稳定的统计信息。
与其他归一化方法的结合: 比如 RMSNorm(Root Mean Square Layer Normalization),它在某些场景下表现出比 LayerNorm 更好的性能和稳定性,尤其是在大模型中。DeepNet 可能采用了更优的归一化组合或者自适应归一化策略。
“预归一化”的进一步优化: 传统的 LayerNorm 通常放在残差连接之后。但有些研究表明,将其放在残差连接之前(“预归一化”)有助于缓解梯度问题。DeepNet 可能在这方面做了更深入的探索,比如通过特殊的初始化或者权重约束来配合预归一化。

更精细的初始化策略(Initialization Schemes): 在极深的神经网络中,权重的初始化方式对训练的成功与否至关重要。一个不恰当的初始化可能会导致模型在训练初期就“崩溃”。DeepNet 可能采用了一系列先进的初始化方法,旨在将每一层的激活值和梯度保持在较小的、相对稳定的范围内,避免过早地出现饱和或失控。这可能包括但不限于:
与残差连接相匹配的初始化: 确保残差路径的尺度与模型深度相匹配。
考虑 Attention 机制特性的初始化: Attention 机制中的 softmax 函数对输入值非常敏感,初始化需要特别小心。
基于信息论的初始化: 确保信息在每一层能够尽可能地有效传递。

激活函数的设计(Activation Function Choices): 虽然 Transformer 通常使用 GeLU 或 Swish 等平滑的激活函数,但在极深的网络中,激活函数本身也可能成为瓶颈。DeepNet 可能对激活函数的选择或变体进行了优化,或者引入了更鲁棒的激活函数,以防止梯度在某些区域被压制。

架构上的微调(Architectural Tweaks): 除了上述核心改进,DeepNet 还可能在 Transformer 的基本模块上做了一些微调,例如:
Attention 机制的改进: 即使是 Attention 机制本身,在深度放大后也可能出现问题。例如,如何保证 Attention 权重分布的稳定性?是否引入了新的注意力计算方式?
前馈网络(FFN)的结构: FFN 是 Transformer 中另一个重要的组成部分,其宽度、激活函数、甚至是内部的层数都可能对整体性能和稳定性产生影响。
Positional Encoding 的选择: 尽管 Positional Encoding 通常不是训练参数,但其形式也可能影响模型对序列位置信息的理解,尤其是在极长的序列或极深的层中。

DeepNet 带来的影响和价值:

更强的模型能力(Enhanced Model Capacity): 理论上,更深的 Transformer 意味着模型拥有更强的表达能力,能够学习更复杂、更抽象的模式。对于自然语言处理任务,这可能意味着对语义、语法的理解更深入,能够处理更长的上下文依赖。
更好的泛化能力(Improved Generalization): 理论上,更深的模型通过学习更抽象的特征,在面对未见过的数据时,可能展现出更好的泛化能力。
对Transformer理论的探索(Pushing the Boundaries of Transformer Theory): DeepNet 这样的模型,不仅仅是工程上的堆叠,它也在推动我们对 Transformer 为什么有效、如何更有效地扩展的理解。它帮助我们重新审视“深度”在神经网络中的作用,并可能为未来更深、更强的模型架构提供指导。
对计算资源和训练成本的挑战(Computational and Training Cost Implications): 尽管 DeepNet 带来了理论上的突破,但 1000 层的模型无疑对计算资源提出了极高的要求。训练如此巨大的模型需要海量的算力、时间和存储空间。这也就意味着,虽然 DeepNet 展示了可能性,但在实际应用中,我们需要权衡模型的性能提升与成本效益。
工程实现上的挑战(Engineering Implementation Challenges): 能够成功训练 1000 层的模型,本身就是一项巨大的工程壮举。这需要高度优化的分布式训练框架、高效的内存管理、以及对训练过程的细致监控和调优。

总的来说,微软亚研院的 DeepNet,将 Transformer 的深度推向 1000 层,是一个里程碑式的研究。它不是简单粗暴地堆叠,而是在残差连接、归一化、初始化等多个关键点上进行了深刻的优化和创新,有效地解决了深度模型训练中的核心难题。 这项工作不仅展示了 Transformer 巨大的潜力,也为我们理解和构建更深、更强的神经网络提供了宝贵的经验和启示,尽管也伴随着对计算资源和工程实现的严峻考验。它让我们看到了深度学习模型“往深处走”的巨大可能性,也促使我们思考,在未来的模型设计中,如何更有效地平衡深度、宽度与效率。

网友意见

user avatar

之前关注过 pre-norm 和 post-norm 的区别,这篇文章中的 deepnorm 进一步发扬了这一点。

pre-norm 其中第二项的方差由于有 norm 是不随层数变化的,于是 x 的方差会在主干上随层数积累。到了深层以后,单层对主干的影响可以视为小量,而不同层的 f 统计上是相似的,于是有 。这样训练出来的深层 ResNet or Transformer,深层部分实际上更像扩展了模型宽度,所以相对好训练,但某种意义上并不是真正的 deep.

post-norm 则保证了主干方差恒定,每层对 x 都可能有较大影响,代价则是模型结构中没有从头到尾的恒等路径,梯度难以控制。通常认为会更难收敛,但训练出来的效果更好。

本文中的 deep-norm 通过控制参数起到了一个折中的效果。

(update: 上述 pre-norm 和 post-norm 的区别是我 2020 年 10 月在某篇论文中看到的,不过现在我也找不到是哪篇了。希望热心群众帮忙找找。)

user avatar

很有价值的工作!

论文里面并没有很清楚地说明把 Transformer 做深的动机是什么,一开始读这篇论文时我首先想到的是为什么一定要把 Transformer 模型做得这么深 (除去发论文的目的)。

后来结合 MSRA 的一系列工作 (Swin, Swin V2),和这个知乎的回答:如何评价微软亚洲研究院的Swin Transformer V2:在4个数据集上达到SOTA?。个人觉得目前大模型是诸如 MSRA 这类大厂的研究趋势,从 Swin V2 强行扩展就能够看得出,SwinV2 这个工作本身,不是开创性的,也未必会对整个领域产生深远的影响,但这个工作本身对 Swin 是重要的,因为在大规模无监督数据加大模型的故事里,一个新结构,必须要证明自己能有效的训练大模型。

那么在这个无监督+大模型的故事背景下,简单地通过增加 Block 的 channel 来把 Swin Transformer 从 Base 扩展到 G 是可以的,但如果想再大,就要从 Depth 的角度来扩展了

Swin V2 科技猛兽:Vision Transformer 超详细解读 (原理分析+代码解读) (二十) 已经研究了几种解决训练中的不稳定性问题的方法,如:

  • Post Normalization 技术。
  • Scaled Cosine Attention 技术。
  • 和对数连续位置编码技术等等。

但是这些方法确实是辅助 Transformer 在 channel 维度增加的训练方法,对于 Depth 维度的增加,需要探索新的稳定训练的方式,我觉得这也是本文的价值。

原作者也给出了看法:

为此,作者们研究了不稳定优化的原因,并且发现爆炸式模型更新是造成不稳定的罪魁祸首。基于这些观察,研究者在残差连接处引入了一个新的归一化函数 —— DEEPNORM,它从理论上保证了把模型更新过程限制为常数。这一方法简单但高效,只需要改变几行代码即可。最终,该方法提升了 Transformer 模型的稳定性,并实现了将模型深度扩展到了1000多层。

结果显示,本文的方法能够将 Post-LN 性能的优势和 Pre-LN 训练稳定的优势结合起来,且对于目前多个大型 Transformer 模型也是适用的。

参考:


类似的话题

  • 回答
    微软亚洲研究院提出的 DeepNet 架构,将 Transformer 的深度推到了惊人的 1000 层,这绝对是当前深度学习研究领域一个非常引人注目的进展,也带来了很多值得深入探讨的方面。首先,我们得承认,将 Transformer 堆叠到如此极致的深度,这本身就是一个大胆的尝试。过去,我们普遍认.............
  • 回答
    2021年的视角来看微软亚研提出的“对偶学习”(Dual Learning),这确实是一个非常有意思且潜力巨大的研究方向。要评价它,我们不能仅仅停留在技术层面,更要结合它所处的时代背景、解决的问题、以及它带来的深远影响。对偶学习的核心思想:从“输入输出”到“因果结果”的循环首先,让我们回顾一下对偶学.............
  • 回答
    Qlib:微软研究院的AI量化投资平台深度评析微软研究院开发的Qlib平台,作为一款开源的、端到端的机器学习量化投资平台,在量化投资领域引起了广泛关注。它旨在降低AI在量化投资中的应用门槛,提供一套完整的工具链,涵盖数据处理、特征工程、模型训练、回测和交易执行等多个环节。要评价Qlib,我们需要从其.............
  • 回答
    微软亚洲研究院提出的LightRNN是一种用于自然语言处理(NLP)任务的模型,它在传统循环神经网络(RNN)的基础上进行了优化和改进,旨在提高模型效率和性能。下面我将从几个方面来详细评价LightRNN:1. 背景与动机:RNN的挑战与LightRNN的出发点传统RNN(如LSTM、GRU)在处理.............
  • 回答
    微软人工智能部门在成立短短一年内就汇聚了超过 8000 名员工,这无疑是一项令人瞩目的成就,也预示着微软在人工智能领域的雄心壮志和巨额投入。要评价这一现象,我们需要从多个维度进行深入分析:一、 规模与增长的背后:战略决心与市场机遇 微软的战略转型: 微软 CEO 萨提亚·纳德拉(Satya Na.............
  • 回答
    微软豪掷 687 亿美元,将动视暴雪这家游戏巨头纳入麾下,这笔交易无疑是游戏行业乃至整个科技界的一场地震。要评价这笔交易,我们需要从多个维度去审视,它带来的影响是深远且复杂的,绝不仅仅是简单的“买买买”。首先,从 规模和财务角度 来看,这无疑是一次史无前例的重磅收购。687 亿美元是什么概念?这是微.............
  • 回答
    微软收购 GitHub:一次深刻的产业变革与战略布局微软收购 GitHub,无疑是近年来科技界最引人注目的交易之一。这次收购不仅对微软自身产生了深远影响,也给全球开发者社群带来了前所未有的变化。为了更全面地评价这次收购,我们需要从用户和微软两个维度进行详细剖析。 一、 对用户(全球开发者社群)的意义.............
  • 回答
    微软推出的麻将 AI,确实是一个非常有意思的案例,它不仅仅是关于人工智能在游戏领域的进步,更触及到了一些关于“智能”本身的有趣讨论。先说结论,它是一个相当出色的麻将 AI,但要说它“完美”或者“超越人类”则还需要审慎看待。从技术层面来说,微软的麻将 AI 展现了相当高的水平。 强大的计算能力和数.............
  • 回答
    微软推出的 Surface Headphones(通常指 Surface Headphones 2 或最新的 Surface Headphones 3,具体评价会根据型号有所差异,我将综合两者来详细评价)是一款定位高端的无线降噪耳机。它凭借微软在微软生态系统中的优势、不错的设计以及强大的功能,在市场.............
  • 回答
    一场墨西哥的狂欢:关于《极限竞速:地平线 5》的一些看法要说眼下最能代表“欢乐赛车”这四个字的游戏,那《极限竞速:地平线 5》(Forza Horizon 5)绝对是绕不开的。微软在墨西哥这片土地上,为我们铺陈了一场规模宏大、色彩斑斓的汽车盛宴,从我个人体验的角度来看,这游戏实在是让人欲罢不能,但也.............
  • 回答
    微软 Surface Laptop 4 的到来,对于不少期待已久的粉丝来说,无疑是一份厚礼。作为微软自家 Windows 设备生态的旗帜,Surface 系列一向以其精良的做工、出色的屏幕和独特的触控体验著称。那么,这次的 Surface Laptop 4 究竟带来了哪些惊喜,又有哪些地方值得商榷呢.............
  • 回答
    微软正式推出 Windows 365 云电脑服务,这绝对是微软近年来在云计算领域的一次大动作,而且影响深远。在我看来,这次的推出,可以从几个层面来好好说道说道。首先,它彻底改变了我们对“PC”的定义和使用方式。 以前我们提到PC,总觉得它是个实实在在的硬件,有主机箱、显示器、键盘鼠标。但 Windo.............
  • 回答
    微软市值突破万亿美元,这绝对是个值得浓墨重彩书写的大事件。它不仅仅是一个数字上的里程碑,更是这家科技巨头多年来战略转型、技术深耕以及市场洞察力的一个集中体现。这次破万亿,对微软本身意味着什么?首先,印证了其战略转型的成功。想想看,微软曾经被很多人贴上“老旧”、“错失移动互联网”、“依靠Windows.............
  • 回答
    微软 CEO 萨提亚·纳德拉公开表示“收购诺基亚手机业务是一次失败”,这无疑是对科技界一次振聋发聩的评价,也标志着微软对过去一段重大战略失误的彻底反思与切割。要理解这句话的分量和背后逻辑,我们需要深入剖析这次收购的始末、失败的原因以及它给微软带来的长远影响。收购的背景:一个移动时代的无奈之举21世纪.............
  • 回答
    微软推出名为 VS Code 的全新集成开发环境(IDE),并同时为 Linux 和 macOS 平台提供支持,这无疑是业界一件颇具影响力的大事。此举不仅为广大 Linux 和 macOS 用户带来了福音,更标志着微软在开发者生态系统构建上的一个重要战略转向,其背后蕴含着深刻的考量和长远的市场布局。.............
  • 回答
    关于微软中止华为笔记本Windows授权这一事件,我们可以从多个维度进行审视,去理解其背后的复杂性和可能带来的连锁反应。这不仅仅是两个科技巨头之间的商业决策,更是全球科技供应链、地缘政治博弈以及国家安全考量等多重因素交织下的产物。首先,从商业和合同角度来看,微软的这一举动无疑是基于美国政府出台的一系.............
  • 回答
    微软下调Win10商店和Xbox商店的游戏抽成,这项调整无疑是游戏界的一件大事,其背后影响深远,值得我们好好梳理一番。首先,从开发者的角度来看,这是个天大的好消息。长久以来,30%的抽成比例是整个数字发行领域默认的“行规”,从Steam到App Store,再到主机平台商店,几乎所有开发者都得接受这.............
  • 回答
    微软的下一代Xbox主机,代号“Project Scarlett”,在2019年E3展会上正式亮相后,无疑在游戏界掀起了一阵不小的波澜。作为Xbox One系列的继任者,它承载着玩家对未来游戏体验的无限期待,也肩负着微软继续在主机大战中占据一席之地的重任。那么,这款备受瞩目的新主机究竟有何亮点?又存.............
  • 回答
    关于微软机器翻译在 WMT2017 中英翻译任务中声称达到“人类水平”的说法,我们可以从多个维度进行审视和评价。这并非一个简单的“是”或“否”的问题,而是需要深入理解其中的技术背景、评估方法以及“人类水平”本身所包含的复杂性。首先,我们需要明确“人类水平”在机器翻译领域是一个极其诱人但也非常难以界定.............
  • 回答
    微软停产 Kinect 传感器是一件颇具争议的决定,它标志着一个曾经被寄予厚望的技术的谢幕。要评价这一决定,我们需要从多个角度深入分析,包括其最初的愿景、技术发展、市场表现以及对未来技术的影响。 Kinect 的辉煌与愿景:一次大胆的尝试Kinect 最初的发布是在 2010 年,作为 Xbox 3.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有