腾讯混元大模型核心论文曝光：Scaling law、MoE、合成数据以及更多

随着 ChatGPT 的横空出世，大语言模型能力开始在各项领域（传统 NLP、数学、代码等）得到广泛验证，目前已经深刻影响到腾讯混元团队日常生活的方方面面。腾讯混元团队长期致力于大语言模型的探索之路，大模型生产的各个环节开展研究创新以提升其基础能力，并将混元大模型的能力跟业务做深度结合，让生成式 AI 成为业务增长的放大器。大语言模型的设计、训练和优化是一项复杂的系统工程，涉及到模型结构创新、训练范式优化、数据获取和评测设计、关键能力提升和挑战性问题的解决等方方面面。

大语言模型的设计、训练和优化是一项复杂的系统工程，涉及到模型结构创新、训练范式优化、数据获取和评测设计、关键能力提升和挑战性问题的解决等方方面面。腾讯混元团队在大模型研究探索中积累了丰富的实战经验和创新性的研究成果，目前累计发表近百篇学术论文，为推动技术的开放共享，腾讯混元团队也把对应成果以论文、开源模型和技术报告等形式分享给大模型社区的研究者。

11 月 5 日，腾讯混元发布了业界最大参数规模的 MoE 开源模型腾讯混元 Large。混元 Large 是目前最大最强的开源 Transformer 结构的 MoE 大语言模型，在高质量合成数据、先进的模型架构和混合专家路由策略、以及优化的模型训练策略共同加持下，腾讯混元 Large 在广泛的基准测试下获得了优异的性能。对应的开源模型和技术报告详述了 Hunyuan-Large 强悍能力的技术基础细节，可谓腾讯混元团队多个前沿研究的集大成。见技术报告《Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent》。

大模型的锻造是一项系统工程，在这一过程中，腾讯选择从零开始自研的路线，他们如何在短时间内搭建出万亿参数规模模型？又如何突破算力极限，在训练和推理上做功夫？高效产出多款业界领先的模型？最近，AI在线拿到了腾讯混元团队研发团队几篇核心论文，可以带大家一窥究竟。

工欲善其事，必先利其器，大模型时代极其高昂的训练成本促使腾讯混元团队沉下心深入探索大模型训练中参数量、重要超参、训练 token 数和最终性能等关键要素之间的规律。腾讯混元在《Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling》中深入探索了大模型批大小和最佳学习率之间的 scaling law，挖掘出的规律也成为 Hunyuan 大模型系列高效训练的理论指导。

优越的模型结构是大模型性能的基石。腾讯混元团队作为国内最早部署超大规模 MoE 架构大模型的团队之一，一直在不断地进行模型架构上的创新，其工作《HMoE: Heterogeneous Mixture of Experts for Language Modeling》创新性地提出了异构混合专家模型并验证其有效性，为大模型社区带来很有前景的新设计思路。百花齐放的探索才能激发更多颠覆性的创新思考。

高质量的数据及合理全面的评测是大模型训练的重中之重。腾讯混元团队在合成数据和模型评测上进行了充分的积累，功夫体现于微末处，看似枯燥的工作中也能凝结出技术洞见之花。腾讯混元在《DINGO: Towards Diverse and Fine-grained Instruction-Following Evaluation》中提供了一个细粒度且多样化的指令遵循评估数据集，基于从真实用户请求中总结的手动注释的多级分类树，为大模型提供更具挑战的全面的评估。

最后，混元团队也对大模型经典能力和挑战，如幻觉、长文能力等方面进行了长期的研究。以《Truth Forest: Toward Multi-Scale Truthfulness in Large Language Models through Intervention without Tuning》为代表，在大模型和多模态大模型幻觉问题的数据集构建、检测和缓解上进行了多项创新性研究，旨在提升混元大模型在真实场景下的可靠性和可用性。

以下是上述五篇工作的详细解读：

Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

arXiv链接：https://arxiv.org/abs/2411.02265

在本文中，腾讯混元团队介绍了 Hunyuan-Large，这是目前最大的开源基于 Transformer 的混合专家模型，总参数量为 389B，激活参数量为 52B，能够处理多达 256K 的上下文 tokens。Hunyuan-Large 的关键技术包括比以往工作大几个数量级的大规模合成数据、优化的混合专家路由策略、高效的 KV cache 压缩技术和专家特化的学习率策略等，细节满满。此外，腾讯混元团队还研究了混合专家模型的 scaling law 和学习率，为未来的 MoE 大模型开发和优化提供了宝贵的见解和指导。下图给出了 Hunyuan-Large 中的 Recycle routing 路由策略示意图。

腾讯混元大模型核心论文曝光：Scaling law、MoE、合成数据以及更多

腾讯混元团队对 Hunyuan-Large 在各种基准测试中的卓越性能进行了全面评估，包括语言理解与生成、逻辑推理、数学问题、代码任务、长上下文和综合任务等。在这些方面上，Hunyuan-Large 优于 LLama3.1-70B，并且在与显著更大的 LLama3.1-405B 模型相比时表现出相当的性能。

腾讯混元大模型核心论文曝光：Scaling law、MoE、合成数据以及更多

目前 Hunyuan-Large 的代码和模型均已发布，欢迎各位研究者和开发者使用，也期望混元团队的开源成果能够促进未来的大模型研究创新和落地应用。

Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling

NeurIPS-2024

链接：https://arxiv.org/abs/2405.14578

在当前的深度学习任务中，Adam 风格的优化器（如 Adam、Adagrad、RMSProp、Adafactor 和 Lion 等）已被广泛用作 SGD 风格优化器的替代品。这些优化器通常使用梯度的符号来更新模型参数，从而产生更稳定的收敛曲线。学习率（learning rate）和批大小（batch size）是优化器最关键的超参数，需要仔细调整以实现有效的收敛。先前的研究表明，对于 SGD 风格的优化器，最佳学习率随着批量大小线性增加或遵循类似的规则。然而，这一结论并不适用于 Adam 风格的优化器。

在本文中，腾讯混元团队通过理论分析和广泛的实验，阐明了 Adam 风格优化器的最佳学习率与批大小之间的关系。首先，腾讯混元团队提出了梯度符号情况下 batch size 与最佳学习率之间的缩放规律，并证明了随着 batch size 的增加，最佳学习率先上升后下降。此外，随着训练的进行，峰值将逐渐向更大的 batch size 移动。其次，腾讯混元团队在各种计算机视觉和自然语言处理任务上进行了实验，验证了这一缩放规律的正确性。

腾讯混元大模型核心论文曝光：Scaling law、MoE、合成数据以及更多

腾讯混元团队充分利用工业界的算力优势，在诸多任务、模型和参数设置上进行了广泛的缩放规律验证实验，细节详见论文。这些结论不仅为腾讯混元团队未来训练 Hunyuan-Large 以及其它 Hunyuan 系列模型提供了坚实的理论基础和经验结论，也将对 LLM 社区未来的大模型训练提供指引和启发。

腾讯混元大模型核心论文曝光：Scaling law、MoE、合成数据以及更多

HMoE: Heterogeneous Mixture of Experts for Language Modeling

arXiv

链接：https://arxiv.org/abs/2408.10681

混合专家模型（Mixture of Experts, MoE）通过选择性激活大模型参数的子集，显著提升了模型性能和计算效率。传统的 MoE 模型使用同质专家，每个专家具有相同的容量。然而，考虑到输入数据的复杂性和差异性，腾讯混元团队需要有不同能力的专家，而同质 MoE 影响了有效的专家专门化和高效的参数利用。在这项研究中，腾讯混元团队提出了一种新颖的异质混合专家模型（Heterogeneous Mixture of Experts, HMoE），不同专家在规模上有所不同，因此也能激发出更多样的能力。这种异质性允许更专业的专家更有效地考虑到不同的 token 的复杂性。为了解决专家激活不平衡的问题，腾讯混元团队提出了一种新的训练目标，鼓励更频繁地激活较小的专家，从而提高计算效率和参数利用率。

腾讯混元大模型核心论文曝光：Scaling law、MoE、合成数据以及更多

广泛的实验表明，HMoE 在激活更少参数的情况下实现了更低的损失，并在各种预训练评估基准上优于传统的同质 MoE 模型。

腾讯混元大模型核心论文曝光：Scaling law、MoE、合成数据以及更多

MoE 结构设计优化是其能力提升的关键。混元团队在大模型结构设计和优化上投入了很多精力，也尝试了多种新架构技术方向，未来将逐步开放并分享腾讯混元团队新的研究成果，希望能为大模型社区带来更多百花齐放的新颖思路。

DINGO: Towards Diverse and Fine-Grained Instruction-Following Evaluation

AAAI-2024

链接：https://ojs.aaai.org/index.php/AAAI/article/view/29768

简介：指令遵循对于大语言模型支持多样化的用户请求尤为重要，这种大模型在真实应用上的基本能力。尽管现有的工作在使 LLM 与人类偏好对齐方面取得了一定进展，但由于现实世界用户指令的复杂性和多样性，评估它们的指令遵循能力仍然是一个挑战。现有的评估方法虽然关注大模型的一般技能，但存在两个主要缺点，即缺乏细粒度的任务级评估和依赖单一的指令表达。为了解决这些问题，本文构建了 DINGO，一个细粒度且多样化的指令遵循评估数据集，具有两个主要优势：（1）DINGO 基于手动注释的、细粒度的多级分类树，该分类树包含从现实世界用户请求中提取的 130 个节点；（2）DINGO 包含由大模型和人类专家生成的多样化指令。

腾讯混元大模型核心论文曝光：Scaling law、MoE、合成数据以及更多

通过广泛的实验，腾讯混元团队证明了 DINGO 不仅可以为大模型提供更具挑战性和全面性的评估，还可以提供任务级的细粒度方向以进一步改进大模型。数据集已经开源。

腾讯混元大模型核心论文曝光：Scaling law、MoE、合成数据以及更多

Truth Forest: Toward Multi-Scale Truthfulness in Large Language Models through Intervention without Tuning

AAAI-2024

链接：https://ojs.aaai.org/index.php/AAAI/article/view/30087

大型语言模型（LLMs）在各种任务中取得了巨大成功，但它们在生成幻觉方面仍存在问题。腾讯混元团队介绍了一种名为 Truth Forest 的方法，通过使用多维正交探针揭示隐藏的真实表示来增强 LLMs 的真实性。具体来说，它通过在探针中加入正交约束，创建多个正交基来建模真实信息。此外，腾讯混元团队引入了 Random Peek，它考虑了序列中更广泛的位置信息，减少了在 LLMs 中辨别和生成真实特征之间的差距。

腾讯混元大模型核心论文曝光：Scaling law、MoE、合成数据以及更多通过采用这种方法，腾讯混元团队将 Llama-2-7B 在 TruthfulQA 上的真实性从 40.8% 提高到了 74.5%。同样，在微调模型中，腾讯混元团队也观察到了幻觉指标上的显著改进。