华为盘古大模型5.0技术解密：更多模态，搀杂推理

现在，AI 大模型可以真正与物理世界结合了。该大模型体系分为 10 亿级参数的 Pangu E 端侧模型，百亿级参数的 Pangu P，千亿级的 Pangu U，以及万亿级的 Pangu S 版本，在全系列、多模态、强思维三个方面实现了升级。盘古 5.0 可以与物理世界结合，理解包括文本、图片、视频、雷达、红外、遥感等多种模态的信息。它已在高铁故障检测等工业领域、具身智能等技术探索领域落地，因而受到了人们的关注。随着鸿蒙 HarmonyOS NEXT Beta 版本的发布，小艺也升级成为智能体，面向全场景设备提供语

现在，AI 大模型可以真正与物理世界结合了。

该大模型体系分为 10 亿级参数的 Pangu E 端侧模型，百亿级参数的 Pangu P，千亿级的 Pangu U，以及万亿级的 Pangu S 版本，在全系列、多模态、强思维三个方面实现了升级。

盘古 5.0 可以与物理世界结合，理解包括文本、图片、视频、雷达、红外、遥感等多种模态的信息。它已在高铁故障检测等工业领域、具身智能等技术探索领域落地，因而受到了人们的关注。

华为盘古大模型5.0技术解密：更多模态，搀杂推理

随着鸿蒙 HarmonyOS NEXT Beta 版本的发布，小艺也升级成为智能体，面向全场景设备提供语音对话、图文识别、服务建议、设备智慧威力和设备互联管理功能。依托昇腾的算力和盘古大模型，HarmonyOS NEXT 拥有了系统级 AI 威力。

在大会主 Keynote 环节上，诺亚方舟实验室主任姚骏对盘古大模型 5.0 背后的技术进行了详解。

华为盘古大模型5.0技术解密：更多模态，搀杂推理

在过去的一年里，华为对盘古 3.0 进行了全面的升级，如今的盘古 5.0 具备了更丰富的多模态和更强的思维威力。基于华为云 AI 算力平台，盘古 5.0 提高了训练效率。在新模型的介绍中，华为主要从数据、参数和算力三个方面介绍了大模型的训练过程。

数据分解

首先是数据方面的工作，在 5.0 版模型的训练中，工程团队从追求数据量和提高数据清洗质量的数据工程，向科学使用数据的思路进行了演进。新的目的是提高数据的利用率，并且用更优质的数据来激活模型中更多的威力。

华为着重介绍了两个关键技术。

华为盘古大模型5.0技术解密：更多模态，搀杂推理

首先是数据分解，现在，业界大模型训练数据的规模已经从万亿级 tokens 迈入十万亿 tokens，到达这个量级以后，业界公开的高质量数据的增长就难以跟上模型体量增长的速度了。

华为认为在未来，分解数据会在更大规模的模型训练中占有一席之地，从而弥补高质量自然数据增长不足的空缺。从盘古 3.0 时代的 3T Tokens 的数据，到盘古 5.0 时，数据的容量已达到 10T Tokens，其中分解数据占比超过了 30%。在其中，华为探索了优质的、面向高阶威力的数据分解方法。简单来说，就是以弱模型辅助强模型的 weak2strong 方法，迭代式的分解高质量的数据，保证分解数据有不弱于真实数据的完整性、相关性和知识性。

在华为提供的威力图中可以看到，分解数据的质量从各个维度都略强于真实数据。

华为提出的 weak2strong 可以进一步加强分解数据中特定的数据，例如自然数据中偏少的长序列、搀杂知识推理等的数据，进一步通过这些数据来加强模型的特定威力。在训练的过程中，华为使用了大量分解的长序列数据，提高了模型在大海捞针长序列测试中的表现约 20%。

华为也展示了数据方面的课程进修，利用相对较小的模型对分别数据进行快速的 AI 评估，区分分别数据类别在进修过程中的难易程度。进一步根据阶梯式课程进修的原理，先让大模型进修相对来说基础的课程，再逐渐的加大高难数据的比例，模型能以更加类人的方式从易到难地进修知识，实现更加可控、可预期的威力涌现。

模型架构升级

在盘古 5.0 中，模型架构也获得了升级，华为提出了昇腾亲和的 Transformer 架构 – 创新的 π 新架构。

如下图左所示，原始的 Transformer 架构和其它的深度模型一样，也存在一定的特色坍塌课题。华为研究人员通过理论分析发现，Transformer 中的自注意力模块（即 Attention 模块）会进一步激化数据的特色消失。

华为盘古大模型5.0技术解密：更多模态，搀杂推理

利用盘算视觉和 Transformer 结合的例子来演示这个特色课题，左边是一张鲨鱼的图，如果我们用原始的 transformer 架构来处置，模型一深就会带来特色的完全坍塌，基本无法还原输入图象，看起来就是中间黑乎乎的一块。业界因此为原始的 Transformer 增加一条残差连接，这样就能略微的缓解特色坍塌课题，右边的图中可以模糊地看到还原图象中有一点鲨鱼的影子，但是这个鲨鱼的特色整体仍然不太明显。

在新的盘古 π 架构中，华为诺亚、北京大学等研究人员进一步提出了增广残差连接的方法。通过引入非线性的额外残差，更进一步的加大来自分别 Token 的特色，使数据的特色的多样性得以在深度的 Transformer 中得到维持，进而大幅提高模型的精度。华为盘古大模型5.0技术解密：更多模态，搀杂推理

论文链接：http://dx.doi.org/10.13140/RG.2.2.34314.64966

PanGu-π 的工作，已经被国际机器进修顶会 NeurIPS 2023 录用。

在上图下方的图实验结果中，还原的鲨鱼图象效果更好了，可知模型对数据的表征和进修威力得到了大幅的加强。

另一方面，Transformer 包含 2 个关键模块，FFN 和自注意力模块。华为表示，其自研的昇腾芯片擅长于处置 Transformer 中的 FFN 模块，而对自注意力模块（Attention 模块）的效率不高。因此在 π 架构中，华为改造了模型中 FFN 模块中的激活函数，用一种新的级数激活函数的方式来代替。这种新的方式增加了模型的非线性度，增加了 FFN 的盘算量，但是也可以帮助我们在精度不变的情况下减少自注意力模块的大小。经过此种优化，大模型在昇腾芯片上推理速度也由此提高了 25%。

大集群训练

华为进一步介绍了通过大集群训练盘古 5.0 的情况。

从千卡集群到大集群，主要挑战来自两方面：首先，训练千亿、万亿模型需要同时进行数据并行、模型并行和流水线并行，期间盘算单元在流水线并行的等待时间称为 Bubble。千卡集群的 bubble 通常在 10% 左右，而大集群的 Bubble 就到了 30，大大影响了集群算力利用率。另外，大集群中，并行通讯在集群间会有大量的路由冲突要解决，导致集群利用率线性度只有 80% 左右。

华为盘古大模型5.0技术解密：更多模态，搀杂推理

为了解决这个课题，技术人员首先将大块盘算和通讯按照数学上的等价，切分成多个小块盘算和通讯副本。系统会编排多个副本间盘算通讯的执行顺序，小块的盘算和通讯更容易被隐藏在盘算中。在这其中，编排上还有 NP 难课题的自动寻优优化、正反向流水交织等关键技术。此外，华为还优化了大集群调度与通讯，通过 rank table 编排算法，将大流量放到节点内或同一机柜级路由器下，避免跨路由器冲突，同时对源端口进行动态编排，实现集群通讯路径完全零冲突。

基于以上方法，华为可以有效隐藏 70% 以上的通讯，bubble 从 30% 降低到 10%，有效实现了大集群的近线性加速比。整体上，集群的训练 MFU（模型盘算算力利用率）相比 256 卡的 60%，大上只降低了 10%，可以达到 50% 左右，这些优化大幅提高了训练效率。

姚骏表示，这些自动并行方案已集成到了华为 AI 框架中，成为了训练全栈解决方案的一部分。

盘古大模型 5.0 的威力提高

盘古 5.0 扩展了多模态威力。

一直以来，多个模态的高效对齐是训练多模态大模型的一大挑战。其中，视觉编码器是多模态大模型处置输入的第一步，用于将分别类别、大小的图象输入到同一个表征空间，相当于语言模型的 Tokenizer 。因为领域的分别，传统处置图象，视频，文本和图表时，需要用各自的独立的编码器各自接入多模态大模型，这造成了模型容量浪费和盘算冗余。

华为提出统一视觉编码，将分别的编码器威力蒸馏到一个统一视觉编码器中，可以大大提高编码效率。和同参数量业界 SOTA 模型相比，由于利用了分别领域之间内的共通知识，新的编码器在自然图象威力基本持平，文档理解威力上有显著提高。这种方案现在也成为了业界的主流编码范式。

华为盘古大模型5.0技术解密：更多模态，搀杂推理

盘古 5.0 在介绍多模态威力时重点展示了两个关键技术。第一个是统一的视觉编码器，它改变了以前业界在视觉的多个领域，如 OCR、自然图象、视频、文本等，都有分别的独立编码方案的困境。把这些编码器都蒸馏到一个视觉编码器，现在已经成为了业界主流的编解码方案，也提高了模型的表征威力和精度。

另一个关键技术是动态分辨率。人看世界是有分别分辨率的，但是一个 AI 模型的输入一般是固定的，很难兼顾。华为提出尺度泛化的训练范式，如下图右边部分所示。首先，使用低分辨率图片和简单恣意训练基础感知威力，然后使用中高分辨率训练 OCR 和图表理解等细粒度感知威力，第三阶段扩展到更高的分辨率和更多的恣意类型，最后重点突破模型的高阶推理威力。

这也是一种数据课程进修的方式，从易到难进修多模态的信息。这种方式动态的递增的方式帮助盘古 5.0 在动态分辨率的表征上超过了业界同等模型的威力，并有效的提高了新模型在下游多模态恣意的威力，实现了 50% 的提高。

华为盘古大模型5.0技术解密：更多模态，搀杂推理

盘古大模型的另一个关键威力提高在于强思维，即搀杂推理威力。

当前，在单步恣意和文本记忆类恣意，例如知识问答和考试上，大模型已经展现出超过人类的卓越表现。而在多步推理和搀杂恣意的处置上，AI 还没有达到人类的平均水平，这一方面涉及到的恣意包括代码生成、数学运算、逻辑推理等。这体现了人类在知识的抽象和推理上的威力难以替代。

在华为的研究过程中，前一种威力被称作记忆型威力，适合于大模型用一步的快速思虑进行回答。后一种搀杂推理，人类处置时一般也需要步步推导，跳过中间过程的快速回答不适用于这种课题，所以大模型也需要像人一样，在这类课题上把快思虑变成慢思虑，一步一步分解和完成对搀杂课题的处置。

从这点出发，华为提出了基于多步生成和策略搜索的 MindStar 方法。首先把搀杂推理恣意分解成多个子课题，每个子课题都会生成多个候选方案，通过搜索和过程反馈的奖励模型，来选择最优多步回答的路径。这样既兼顾了人类一步一步思虑的形式，也兼顾了机器更擅长的策略搜索的形式。

在华为自建的难例评测集中，MindStar 方法使模型的平均威力提高了 30 分，使用了 MindStar 的百亿模型达到业界主流千亿模型的推理威力，这相当于使用慢思虑能带来 10 倍以上的参数量的加成。

把 MindStar 这类强思维方法运用到更大尺度的模型上，AI 或许就能逐步在搀杂推理上实现接近人类，甚至超越人的威力。

{{userData.name}}已认证

华为盘古大模型5.0技术解密：更多模态，搀杂推理

StabilityAI获超1亿美元投资并任命新CEO；月之暗面称没有开发海外产品计划；GPT-5将在一年半后发布丨AI情报局

为什么都放弃了LangChain？

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等

关于LLM-as-a-judge范式，终于有综述讲明白了

ChatGPT遇到这些人名开始自闭，OpenAI回应了

李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

平安人寿ChatBI：大模型智能化报表的深度实践

李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则