问题

如何看待华为 4 月 25 日发布的盘古智能大模型?在这个行业处于什么水平?

回答
华为在 4 月 25 日发布的盘古智能大模型,无疑是近期科技界的一件大事,尤其是对于关注人工智能和中国科技发展的我们来说。要理解盘古模型在行业中的位置,我们需要从几个层面来深入分析。

盘古模型的核心亮点与定位

首先,盘古模型的发布,再次巩固了华为在人工智能领域的战略投入和技术实力。华为并非“临阵磨枪”,盘古系列模型已经迭代多年,从最初的面向特定行业(如医疗、金融)的预训练模型,逐步发展到如今通用能力更强、生态更开放的大模型。

从华为这次的发布内容来看,盘古智能大模型有几个值得关注的特点:

全栈能力构建: 华为强调的是“全栈”能力,这意味着他们不仅仅是训练模型本身,更包括了支撑大模型运行的硬件(昇腾AI处理器)、基础软件(昇思MindSpore)、以及面向开发者的AI开发平台(ModelArts)。这种端到端的掌控能力,是华为区别于许多只专注于模型训练的公司的一个关键优势。硬件的优化能够直接影响模型的训练效率和推理速度,而开源的MindSpore则能吸引更多开发者参与到生态建设中。
行业场景的深度适配: 盘古模型最大的卖点之一,在于其对中国本土化场景的深度理解和适配。华为拥有丰富的行业客户资源,能够将模型与实际业务需求紧密结合。比如,在智慧金融领域,盘古可以用于风险评估、智能客服;在智慧医疗领域,可以辅助医生进行影像分析、病情诊断;在智慧交通领域,则能优化交通流量、提升安全水平。这种“接地气”的应用导向,是华为大模型区别于一些纯学术研究模型的务实之处。
多模态能力增强: 如今的大模型竞争,早已不是单纯的文本理解,而是向多模态发展。盘古模型也顺应了这一趋势,能够理解和生成文本、图像、甚至视频。这意味着它能处理更复杂的任务,比如根据文字描述生成图片,或者分析视频内容。
开放与生态建设: 华为并非闭门造车,而是积极推动盘古模型的开放和生态建设。通过ModelArts平台,开发者可以方便地调用、微调和部署盘古模型,这也为盘古模型的快速迭代和应用落地提供了强大的驱动力。

盘古模型在行业中的水平评估

要说盘古模型在这个行业处于什么水平,这需要将其与全球和国内的顶尖模型进行对比。

与国际顶尖模型(如GPT4、Claude 3等)的比较:

通用能力: 在纯粹的通用语言理解和生成能力上,华为盘古模型可能还在追赶国际顶尖水平。GPT4等模型经过海量数据的预训练,在逻辑推理、知识广度、语言流畅度等方面表现出色。盘古模型在这些方面也在不断进步,但要达到“超越”的程度,还需要时间和持续的投入。
多模态能力: 国际顶尖模型在多模态领域已经取得了显著进展,能够处理更复杂的跨模态任务。盘古模型在多模态方面的进展也值得肯定,但具体在不同模态(如视频理解、3D生成等)的深度和精度上,仍需观察其进一步的表现。
行业深度: 这是盘古模型相对的优势所在。国际模型更多是面向全球通用市场,其对特定区域、特定行业的深入理解和适配能力可能不如盘古模型。华为基于其在中国市场的深厚根基,能够更好地理解并服务本土化需求,这为其在特定垂直领域形成了独特的竞争力。
生态和基础设施: 华为的“全栈”优势,尤其是在硬件(昇腾)和AI平台(MindSpore, ModelArts)上的自主可控能力,是其长期发展的坚实基础。这使得华为在成本控制、性能优化和数据安全方面拥有更大的主动权,并且能够构建一个更完整的AI产业链。

与国内其他大模型(如文心一言、通义千问等)的比较:

在国内市场,盘古模型处于第一梯队。与其他领先的大模型一样,它们都在快速迭代,并在各自的优势领域发力。

技术创新: 各家都在努力突破技术瓶颈,提升模型的参数量、训练效率和泛化能力。盘古模型在持续优化其核心算法和模型架构。
场景落地: 同样,国内的优秀大模型都非常重视行业应用。华为的优势在于其在政企客户市场的渗透率和在通信、云计算等领域的长期积累,这为其模型的落地提供了得天独厚的条件。
生态建设: 开放模型、构建开发者社区是所有头部厂商都在做的事情。盘古模型通过ModelArts平台,也在积极吸引开发者。

总结

综合来看,华为盘古智能大模型在当下的大模型浪潮中,可以被视为一个实力强劲、且具有鲜明中国特色和行业应用导向的先行者。

技术层面: 它在通用能力上已经达到了行业前沿水平,并且在持续快速进步。其全栈自主可控的优势,为长期的技术演进和应用落地提供了坚实保障。
应用层面: 盘古模型最大的价值在于其对中国本土化场景的深度理解和赋能能力,特别是在政企、工业、医疗、金融等垂直领域,有望成为重要的驱动力。
战略层面: 盘古模型的成功发布,不仅是华为自身技术实力的体现,更是中国在大模型领域自主可控、构建全产业链能力的重要一步。

未来展望:

大模型的竞争是一个长期而动态的过程。盘古模型未来的发展,将取决于几个关键因素:

1. 模型性能的持续提升: 是否能在通用能力上继续缩小与国际最顶尖模型的差距。
2. 生态的活跃度: ModelArts平台能否吸引更多开发者,孵化出更多创新的应用。
3. 行业应用的深化: 盘古模型在各垂直行业的落地深度和商业价值能否得到持续验证。
4. AI治理和安全: 随着模型能力的增强,如何在合规、安全的前提下推动应用,也是华为需要持续关注的。

总体而言,华为盘古智能大模型的出现,是为中国在人工智能核心技术领域注入的一剂强心剂,也为行业用户提供了更多优质、可靠的选择。它不仅仅是一个技术产品,更是华为在未来数字经济时代的重要战略布局。

网友意见

user avatar

更新,因为下面有问到论文的情况,实际在这个领域我们已经有三篇顶会论文:

1、关于全自动并行的策略寻优:

• EuroPar2021—自动并行双递归《Efficient and Systematic Partitioning of Large and Deep Neural Networks for Parallelization》。

2、关于图算融合和算子自动生成的

  • Micro 2020:《Optimizing the Memory Hierarchy by Compositing Automatic Transformations on Computations and Data》
  • PLDI 2021:《AKG: Automatic Kernel Generation for Neural Processing Units using Polyhedral Transformations》

另外还有几篇论文在路上,有了结果再和大家同步。


利益相关。

其实,这次HDC大会,华为联合鹏城发布了两个千亿的NLP大模型(其中一个模型还和循环智能进行了合作),都是盘古命名的。

一个是4月25日发布的Transformer encoder-decoder的中文理解模型;另外一个4月26日发布的是Transformer decoder的中文预训练模型。这两个模型是不同的定位,也是分别训练出来的。其中第二个预训练模型现在已经开源出来了。

这种超大的模型考验的是全栈和全流程的能力:

1、丰富的数据集和良好的数据清洗

2、硬件系统:芯片、互联、整机

3、硬件使能:高性能的算子库和融合能力

4、AI框架:分布式并行、编译优化

5、AI使能平台:资源管理和调度

6、优秀的算法和模型设计

7、全面的系统工程:包括精度调优、性能调优、模型切分、集群可靠性等等

只有这些能力都达到一流/没有短板,你才能训练出这样的大模型,否则即便给你K级集群,你也用不起来。所以这两个千亿模型训练出来是鹏城、华为EI/智能计算/海思/诺亚实验室/中央软件院等通力协作的结果。


MindSpore作为AI框架有幸同时支撑了这两个千亿模型的训练,过程其实非常艰辛,但总算熬过来。下面就简单介绍一下作为AI框架支撑千亿模型的挑战和解决方案:

挑战:


千亿参数,TB级显存的模型

以盘古2000亿(基于Transformer decoder结构的预训练模型)为例,如果我们训练时权重都用标准的 FP32 数据格式,那么算下来,权重占的空间就达到了 750GB,训练过程中内存开销还会数倍上升。这 750GB 参数,不是放在硬盘上,也不是加载到内存中,而是需要移到昇腾基础硬件平台 HBM(High Bandwidth Memory高带宽存储器)内存中,以利用昇腾基础软硬件平台进行模型训练。

模型大 ,意味着数据也大,而且都需要是高质量数据。为了满足数据需求,研发团队从互联网爬取了80TB文本,并最后清洗为1TB的中文数据集。

这样的模型与数据,已经不是我们几台服务器能加载上的了,更不用说进行训练。好在研发团队会提供 API,一般算法工程师直接调用接口就能试试效果。



超大规模并行

如果给你足够的计算力,你能想到如何训练这么大的模型吗?我们最常用的分布式训练方式数据并行,单独这么做肯定是不行的,因为没有哪个 计算硬件能放下 800GB 的参数。那么再加上模型并行呢?又产生了新问题,我们该如何拆分如此巨大的「盘古」?硬件产品(如GPU等)之间的梯度流、数据流通信又是什么样的?

显然训练如此庞大的模型,远比我们想象中的复杂,需要大量的工程化操作,并保证这些操作不会或极少影响到模型最终收敛效果。

如果手动来写分布式训练逻辑,那么需要综合考虑计算量与类型、集群带宽、拓扑结构、样本数量等等一大堆复杂的东西,然后再设计出性能比较优秀的并行切分策略,并编写大量并行切分和节点间的通信代码。如果系统环境变了,还要重新设计并修改算法,想想就觉得头大。

MindSpore的解决方案

5 大维度的并行能力

MindSpore提供了5维的并行方式:数据并行、算子级模型并行、Pipeline模型并行、优化器模型并行和重计算,并且在图编译阶段,有机融合了5个维度的并行。这5维并行方式组合起来构成了盘古的并行策略。


1、数据并行

数据并行是最基本,应用最广的并行方式,其将训练数据(mini-batch)切分,每台设备取得其中一份;每台设备拥有完整的模型。在训练时,每台设备经过梯度计算后,需要经过设备间的梯度同步,然后才能进行模型参数的更新。

2、算子级模型并行

算子级模型并行是对模型网络中的每个算子涉及到的张量进行切分。MindSpore对每个算子都独立建模,每个算子可以拥有不同的切分策略。

以矩阵乘算子MatMul(x, w)为例,x是训练数据,w是模型参数,两者都是二维矩阵。并行策略((4, 1), (1, 1))表示将x按行切4份,保持w不切,如果一共有4台设备,那么每台设备拥有一份x的切片,和完整的w。

3、Pipeline 模型并行

Pipeline模型并行将模型的按层分成多个stage,再把各个sage映射到多台设备上。为了提高设备资源的利用率,又将mini-batch划分成多个micro-batch,这样就能够使得不同设备在同一时刻处理不同micro-batch的数据。

一种Pipeline并行方式(Gpipe) 要求反向计算要等所有设备的正向计算完成后才开始,而反向计算可能依赖于正向的输出,导致每个卡正向计算过程中累积的activation内存与micro-batch数量成正比,从而限制了micro-batch的数量。MindSpore的Pipeline并行中,将反向提前,每个micro-batch计算完成后,就开始计算反向,有效降低activation存储时间,从而提升整体并行效率。

4、优化器模型并行

优化器模型并行将优化器涉及到的参数和梯度切分到多台设备上。以Adam优化器为例,其内部可能有多份与权重同等大小的“动量”需要参与计算。在数据并行的情况下,每个卡都拥有完整的“动量”,它们在每个卡上都重复计算,造成了内存及计算的浪费。通过引入优化器并行,每个卡只保存权重及“动量”的切片,能降低每个卡的静态内存及提升计算效率。


5、重计算

重计算(Rematerialization)针对正向算子的输出累计保存在内存中,导致内存峰值过大的问题,舍弃了部分正向算子的输出,而是在反向阶段用到时再重新计算一遍。这样做有效地降低了训练过程中的内存使用峰值。如下图所示,第一个内存峰值通过重计算消除,第二个内存峰值可以通过前面讲到的优化器并行消除。


有了这5维的并行维度后,如何将其组合起来作用于盘古,并且如何将切分后的模型分片分配到每台设备上仍然是难题。MindSpore自动并行,把这5个维度并行有机组合起来,可以实现非常高效的大模型分布式训练能力

下图(b)是一典型的树形的硬件拓扑结构,其带宽随着树深度的增加而降低,并且会产生一些流量冲突。为了利用此特征,MindSpore的目标是最大化计算通信比,将通信量大的并行方式(算子级并行)放置在服务器内部的多卡之间;将通信量较小(Pipeline并行)的放置在同一机架内的服务器间;将数据并行(优化器并行)的部分放置在不同机架间,因为该通信可以和计算同时执行(overlap),对带宽要求较低。


在盘古2000亿模型中,MindSpore将64层(layer)划分为16个stage,每个stage包含4层。在每层中,利用算子级并行的方式对张量进行切分。

如下图中的Q,K,V的参数在实际中(按列)被切了8份,输入张量(按行)被切了16份,输出张量因此被切了128份(8*16)。重计算配置是配置在每层内的,也就是重计算引入的多余的计算量不会超过一层的计算量。总计,MindSpore使用了2048块昇腾处理器来训练盘古。


MindSpore对外屏蔽了复杂并行实现的细节,使得用户像编写单机模型脚本那样简单。用户在单机脚本的基础上,仅通过少了配置就能实现多维度的混合并行。下图是简化版的盘古脚本,其中红色加粗字体表示的在MindSpore中的并行策略。将红色加粗字体去掉,则是单机脚本。


图算跨层联合优化,发挥硬件极致性能

除了跨节点间的大规模自动外,在单卡节点内,MindSpore通过图层和算子层的跨层协同优化,来进一步发挥昇腾算力。

在传统的NN网络中,不同算子承载的计算量和计算复杂度也各不相同。如LayerNorm由11个基本算子组成,而Add则只有1个基本算子。这种基于用户角度的算子定义,通常是无法充分发挥硬件资源计算能力的。因为计算量过大、过复杂的算子,通常很难生成切分较好的高性能算子。从而降低设备利用率;而计算量过小的算子,由于计算无法有效隐藏数据搬移开销,也可能会造成计算的空等时延,从而降低设备利用率。

为了提升硬件利用率,MindSpore使用了图算融合优化技术,通过图层和算子层联合优化,并将“用户使用角度的易用性算子”进行重组融合,然后转换为“硬件执行角度的高性能算子”,从而充分提升硬件资源利用率,进而提升整网执行性能。具体优化流程如下图所示:


以LayerNorm算子为例,通过算子拆分和重组,11个小算子,组成了1个单算子和2个融合算子。这些重组后的算子可以生成更加高性能的算子,从而大大降低了整体网络运行时间。


在盘古模型中,图算融合帮助整体训练时间减少了20%以上。除此之外,对于其它 NLP、CV等任务,图算融合在优化性能方面都有不错的表现。


总结一下

即使给我们足够的算力,超大模型的训练还是异常复杂,远比想象中的困难。对于我们一般算法工程师来说,针对某个任务,上亿参数量已经算大的了,但是并不会感到训练上会有什么困难,因为各个深度学习框架直接调用数据并行接口就能搞定。

但是如果模型继续增大到百亿级、千亿级甚至万亿级,并行与优化策略的复杂度猛然上升,算法工程师一点点地编写与优化代码可太难了。MindSpore通过编译器并行优化能力,把计算逻辑和并行逻辑解耦,单卡串行代码自动实现分布式并行,从而使得算法科学家将精力都解放到模型本身上。

为了从预训练获取更多的知识, GPT-3 与盘古 这样的模型会越来越大,毕竟到现在我们还没看到大模型预训练效果的极限在哪。届时,这类模型对基础设施的需求会更大,并行与优化策略也会更加复杂。预训练的效果,看的也已经不是模型本身,而是基础设施构建得是否足够优秀。大规模计算集群及软硬件协同优化,这次在盘古 的训练上得到了充分的完美体现。

当然,也诚如以上所言,盘古只是对超大规模分布式训练、超大规模中文预训练模型的一次探索,未来还需要更多的研究工作者投入到通用智能与大规模分布式计算的研究工作中。


更新-盘古-a的相对全面的情况:

类似的话题

  • 回答
    华为在 4 月 25 日发布的盘古智能大模型,无疑是近期科技界的一件大事,尤其是对于关注人工智能和中国科技发展的我们来说。要理解盘古模型在行业中的位置,我们需要从几个层面来深入分析。盘古模型的核心亮点与定位首先,盘古模型的发布,再次巩固了华为在人工智能领域的战略投入和技术实力。华为并非“临阵磨枪”,.............
  • 回答
    鸿蒙新篇章:华为2021年4月系统升级的深远影响2021年4月,华为如期推送了鸿蒙OS 2.0的正式版,这场万众瞩目的系统升级,绝不仅仅是一次简单的软件迭代。它标志着华为在艰难时刻,凭借自身强大的研发实力和对未来的前瞻性布局,迈出了坚实的一步,也为整个中国乃至全球的科技格局投下了一道深刻的涟漪。回顾.............
  • 回答
    这几天,华为手机用户的朋友圈和各大科技论坛,肯定被一个消息刷屏了——4 月 27 号,华为鸿蒙系统(HarmonyOS)又有了新动作!这次推送升级,具体是针对哪些机型,推送了哪些具体的功能更新,还有更深层次的战略意义,咱们都得好好说道说道。这次推送,到底是怎么回事?首先,这次推送升级并不是一个简单的.............
  • 回答
    4 月 15 日华为公布的自动驾驶公开道路体验视频,在我看来,绝对是自动驾驶领域一个值得深入探讨的节点。这不仅仅是一个技术展示,更是一种信号,释放出华为在智能汽车领域,尤其是自动驾驶方面,野心勃勃且步调坚实。视频呈现出的亮点与解读:首先,视频最直观的感受就是流畅性与场景适应性。我们看到的是一款在复杂.............
  • 回答
    2018年4月27日晚上八点左右,在中国华北地区,确实有很多人观测到了他们所说的“不明飞行物”(UFO)。那天晚上,社交媒体上瞬间炸开了锅,各地网友纷纷晒出自己拍摄的照片和视频,描述着天空中出现的奇特景象。当时的情况是这样的: 广泛的目击区域: 不仅仅是某个小城市或者村庄,从河北、北京、天津,一.............
  • 回答
    华为在世界市场份额跌至 4% 的同时,苹果在大中华区收入大涨 57%,这背后反映了当前全球智能手机市场格局的深刻变化,以及中美科技博弈对企业战略和市场表现产生的复杂影响。要理解这一现象,我们需要从多个维度进行剖析:一、 华为面临的困境:地缘政治与供应链的重创华为市场份额的下滑,最直接的原因可以追溯到.............
  • 回答
    华为线下门店打出“4G + 鸿蒙 > 5G”的宣传语,这可真是一个相当有意思的营销策略,一下子就把大家的好奇心吊起来了。乍一看,这说法似乎有点“反常识”,毕竟现在大家普遍认为5G是未来的趋势,速度更快、延迟更低。那么,华为为什么会这么说呢?咱们不妨从几个角度来好好掰扯一下。首先,我们得理解华为推出鸿.............
  • 回答
    华为 Mate 20 系列在短短 4 个半月内出货量突破千万,这绝对是一个令人侧目的成绩,也足以说明华为在高端手机市场已经站稳了脚跟,并且具备了强大的竞争力。 要深入理解这个数字的意义,我们需要从几个方面来剖析。首先,千万级别的出货量本身就是一项了不起的成就。 在竞争异常激烈的全球智能手机市场,尤其.............
  • 回答
    华为P50全系4G,这件事在当时确实引起了不少关注和讨论,也掺杂着不少复杂的情感。咱们就掰开了揉碎了聊聊,看这背后到底是怎么一回事,以及大家为什么会有这么多反应。时代背景与“困境”的开端首先得明白,华为P50系列出来的时候,正值华为经历“至暗时刻”。你懂的,美国的那些限制措施,尤其是对芯片的供应打击.............
  • 回答
    华为官网近期悄悄上架了4G版的Mate 40 Pro和Mate X2,这消息一出,确实引发了不少讨论。对于一直以来都紧随5G步伐的华为来说,在这个时间点推出4G机型,感觉上有点像是“逆流而上”,但仔细想想,这背后或许有着更深层次的考量和市场洞察。首先,从产品本身来看,4G版的Mate 40 Pro和.............
  • 回答
    华为 P50 系列不搭载 5G 技术,只提供 4G 版本,这确实是华为在特定市场环境下做出的一项重大决策,引起了广泛的讨论和关注。要理解这一决策以及是否值得入手,我们需要从多个维度进行深入分析。一、 华为 P50 系列不搭载 5G 的背景与原因:最核心的原因在于美国对华为的制裁。虽然华为在 5G 技.............
  • 回答
    华为 P50 Pro 搭载骁龙 888 4G 处理器,售价 6000 元人民币,这一价格和配置组合确实引发了不少讨论。要理解这个问题,我们需要从多个维度来分析:1. 华为的特殊处境与战略选择: 芯片限制是根本原因: 华为之所以只能使用骁龙 888 的 4G 版本,是由于美国对华为的制裁,导致华为.............
  • 回答
    从上游供应链厂商传出的消息,关于高通已经获得批准向华为出售 4G 芯片,这无疑是近期半导体和通信行业的一个重磅消息。要理解这件事的意义,我们需要从几个层面来深入剖析。首先,这项批准本身就是一个重要的转折点。大家知道,在过去几年,美国政府对华为的制裁措施非常严厉,其中就包括了对芯片供应的限制。高通作为.............
  • 回答
    2021年2月,全球手机市场风起云涌,小米凭借其一贯的性价比策略和在全球市场的快速扩张,首次坐上了全球出货量第三的宝座,而曾经的霸主华为,则因为外部制裁的影响,市场份额急剧萎缩,跌至4%左右。这个消息,对于很多人来说,无疑是一个具有里程碑意义的事件,它不仅反映了手机市场的格局变化,也折射出全球科技竞.............
  • 回答
    这事儿说起来,还真有点意思,尤其是在科技圈里,这种“双标”的讨论,简直是家常便饭了。咱就掰开了揉碎了,聊聊这 iPhone 11 没 5G 被吐槽和华为 Mate 30 首发只有 4G 又说 5G 无用的这两件事,看看里面到底有啥门道。iPhone 11 没 5G 被喷:时代的需求,还是营销的把戏?.............
  • 回答
    近日,坊间疯传联发科下一代旗舰芯片将采用华为的麒麟技术,这无疑是科技圈的一颗重磅炸弹。如果消息属实,那将是足以载入科技史册的大事件。但我们不能仅凭传言就下定论,需要从多个角度来审视这件事的可能性,以及它可能带来的深远影响。传言的来源与合理性分析首先,我们要追溯一下这个传言的来源。通常这类消息会从某些.............
  • 回答
    “先有华为后有天,4G手机卖九千”这句话,乍一听挺有气势,带着一股子“唯我独尊”的霸气,也有点戏谑的意味。咱们不妨从几个层面来掰开了看看。首先,从华为崛起的历程来看:这句话很大程度上是抓住了华为从一个默默无闻的通信设备制造商,一路披荆斩棘,最终成为全球领先的科技巨头这一过程中的一个缩影。在相当长的一.............
  • 回答
    这事儿啊,听着就让人揪心,也足够让人拍案叫绝。津巴布韦首都哈拉雷,一个华人住宅,来了四名持枪劫匪,这阵势多吓人啊。可万万没想到,里面有个中国人,硬是凭一己之力,把这四个亡命徒给赶跑了。这事儿怎么看,都透着一股子传奇色彩。首先得说,这种事儿发生在哪儿都不算小事。在异国他乡,面对持枪歹徒,任何人都难免会.............
  • 回答
    关于波兰军事演习中模拟“被俄罗斯4天占领华沙”这一事件,我们可以从多个层面进行审视。首先,这并非孤例,在军事战略研究中,模拟敌方的快速、压倒性胜利,尤其是针对首都的占领,是一种常见的演练方式。其目的往往是为了暴露己方在应对突发、极端情况下的脆弱环节,以及检验现有防御体系的有效性。演习的性质与目的:军.............
  • 回答
    加州公立学校将学生按照“台山人”、“广东人”、“说普通话的人”和“台湾人”这样细分的种族划分,这确实是一个相当引人关注且复杂的议题。从表面上看,这种划分似乎是为了更精准地捕捉和照顾到不同华人社群的独特需求和文化认同,但深入剖析,其中潜藏着不少值得我们思考的问题。首先,我们不得不承认,华人社群内部确实.............

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有