百川智能发布超千亿大模型Baichuan 3，华文评测水平超GPT-4

1 月 29 日，百川智能正式发布千亿参数的大语言模型 Baichuan 3。在多个权威通用本领评测如 CMMLU、GAOKAO 和 AGI-Eval 中，Baichuan 3 都展现了出色的本领，尤其在华文义务上更是逾越了 GPT-4。而在数学和代码专项评测如 MATH、HumanEval 和 MBPP 中同样表现出色，证明了 Baichuan 3 在自然语言处理和代码生成范围的强大实力。不仅如此，其在对逻辑推理本领及专业性要求极高的 MCMLE、MedExam、CMExam 等权威调理评测上的华文效果同样超过了

1 月 29 日，百川智能正式发布千亿参数的大语言模型 Baichuan 3。

在多个权威通用本领评测如 CMMLU、GAOKAO 和 AGI-Eval 中，Baichuan 3 都展现了出色的本领，尤其在华文义务上更是逾越了 GPT-4。而在数学和代码专项评测如 MATH、HumanEval 和 MBPP 中同样表现出色，证明了 Baichuan 3 在自然语言处理和代码生成范围的强大实力。

不仅如此，其在对逻辑推理本领及专业性要求极高的 MCMLE、MedExam、CMExam 等权威调理评测上的华文效果同样超过了 GPT-4，是华文调理义务表现最佳的大模型。Baichuan 3 还突破 “迭代式加强进修” 技术，进一步晋升了语义理解和生成本领，在诗词创作的格式、韵律、表意等方面表现优异，领先于其他大模型。

链接：https://www.baichuan-ai.com/

基础本领全面晋升，多项权威评测华文义务成果逾越 GPT-4

Baichuan 3 在多个英文评测中表现出色，达到接近 GPT-4 的水平。而在 CMMLU、GAOKAO、HumanEval 和 MBPP 等多个华文评测榜单上，更是逾越 GPT-4 展现了其在华文义务上的优势。

百川智能发布超千亿大模型Baichuan 3，华文评测水平超GPT-4

此外，在 MT-Bench、IFEval 等对齐榜单的评测中，Baichuan 3 逾越了 GPT-3.5、Claude 等大模型，处于行业领先水平。

百川智能发布超千亿大模型Baichuan 3，华文评测水平超GPT-4

与百亿、几百亿级别参数模型训练不同，超千亿参数模型在训练进程中对高质量数据，训练稳定性、训练效率的要求都高出几个量级。为更好解决相关问题，百川智能在训练进程中针对性地提出了 “动态数据选择”、“重要度保持” 以及 “异步 CheckPoint 存储” 等多种创新技术手段及方案，有效晋升了 Baicuan 3 的各项本领。

高质量数据方面，传统的数据筛选依靠人工定义，通过滤重筛选、质量打分、Textbook 筛选等方法过滤数据。而百川智能认为，数据的优化和采样是一个动态进程，应该随着模型本身的训练进程优化，而非单纯依靠人工先验进行数据的采样和筛选。为全面晋升数据质量，百川智能设计了一套鉴于因果采样的动态训练数据选择方案，该方案能够在模型训练进程中动态地选择训练数据，极大晋升数据质量。

训练稳定性方面，超千亿参数的模型由于参数量巨大，训练进程中经常会出现梯度爆炸、loss 跑飞、模型不收敛等问题。对此，百川智能提出了 “重要度保持”(Salience-Consistency) 的渐进式初始化方法，用以保证模型训练初期的稳定性。并且优化了模型训练进程的监控方案，在梯度、Loss 等指标上引入了参数 “有效秩” 的方法来提早发现训练进程中的问题，极大加速对训练问题的定位，确保了最后模型的收敛效果。此外，为了确保在数千张 GPU 上高效且稳定地训练超千亿参数模型，百川智能同步优化了模型的训练稳定性和训练框架，并采用 “异步 CheckPoint 存储” 机制，可以无性能损失地加大存储的频率，减少机器故障对训练义务的影响，使 Baichuan 3 的稳定训练时间达到一个月以上，故障恢复时间不超过 10 分钟。

训练效率方面，百川智能针对超千亿参数模型的并行训练问题进行了一系列优化，如高度优化的 RoPE, SwiGLU 计算算子；在数据并行中实现参数通信与计算的重叠，以及在序列并行中实现激活值通信与计算的重叠，从而有效降低了通信时间的比重；在流水并行中引入了将激活值卸载至 GPU 的技术，解决了流水并行中显存占用不均的问题，减少了流水并行的分段数量并显著降低了空泡率。通过这些技术创新，Baichuan 3 的训练框架在性能方面相比业界主流框架晋升超过 30%。

调理数据集 Token 数超千亿，调理本领逼近 GPT-4

大模型调理背后蕴含着巨大的社会价值和产业价值，从疾病的诊断、治疗到患者护理与药物研发，大模型不仅能够帮助医生提高诊疗效率和质量，帮助患者获得更好的服务和体验，还能帮助社会降低调理成本和风险，助力调理资源实现普惠和平权。并且调理问题专业性强、常识更新速度快、准确性要求高、个体差异大，能充体现大模型的各项本领，被百川智能称为 “大模型皇冠上的明珠”。因此，诸如 OpenAI、谷歌等头部大模型企业都将调理作为模型的重点训练方向和性能评价的重要体系。ChatGPT 早在 2023 年 2 月便已通过了美国医学执照考试（USMLE），显示出其在医学范围的强大本领。而谷歌对调理范围的重视更甚，鉴于 PaLM 模型打造了调理大模型 Med-PaLM，迭代后的 Med-PaLM 2 在医学考试 MedQA 中的成果超过 80 分，达到了专家水平。

在调理范围，大模型的全能特性发挥着至关重要的作用。首先，其多模态进修本领能够整合文本、影像、声音等多种类型的调理数据，提供更全面、准确的分析和诊断。其次，大模型的深层推理本领有助于复杂调理决策的制定。此外，稳定的性能和常识更新本领确保了调理建议的可靠性和时效性。同时，大模型的语言理解和生成本领使其能够处理专业术语和复杂句式。最后，模式识别与进修本领在大模型中的应用，使其能够从复杂的调理数据中进修和识别出重要的模式和特征。所以，大模型想要在调理范围拥有良好效果并不容易，既需要丰富的调理常识、合适的 Prompt，还需要模型本身具备过硬的逻辑推理本领。

为了给 Baichuan3 注入丰富的调理常识，百川智能在模型预训练阶段构建了超过千亿 Token 的调理数据集，包括医学研究文献、真实的电子病历资料、医学范围的专业书籍和常识库资源、针对调理问题的问答资料等。该数据集涵盖了从理论到实际操作，从基础理论到临床应用等各个方面的医学常识，确保了模型在调理范围的专业度和常识深度。

针对调理常识激发的问题，百川智能在推理阶段针对 Prompt 做了系统性的研究和调优，通过准确的描述义务、恰当的示例样本选择，让模型输出更加准确以及符合逻辑的推理步骤，最终不仅晋升了 Baichuan 3 在多项调理考试上的成果，并且在真实的调理问答场景下也能给用户提供更精准、细致的反馈。

逻辑推理方面，Baichuan 3 在数学和代码等多个权威评测上华文义务逾越 GPT-4 的优异成果，已经充分证明了其强大的基础逻辑推理本领。在拥有丰富高质量专业调理常识，并能通过调优后的 Prompt 对这些常识进行充分激发的基础上，结合超千亿参数的推理本领，Baichuan 3 在调理范围的义务效果晋升显著，在各类中英文调理测试中的成果晋升了 2 到 14 个百分点。

Baichuan 3 在多个权威调理评测义务中表现优异，不仅 MCMLE、MedExam、CMExam 等华文调理义务的评测成果超过 GPT-4，USMLE、MedMCQA 等英文调理义务的评测成果也逼近了 GPT-4 的水准，是调理本领最强的华文大模型。

百川智能发布超千亿大模型Baichuan 3，华文评测水平超GPT-4

突破 “迭代式加强进修” 技术，创作精准度大幅晋升

语义理解和文本生成，作为大模型最基础的底层本领，是其他本领的支柱。为晋升这两项本领，业界进行了大量探索和实践，OpenAI、Google 以及 Anthropic 等引入的 RLHF (鉴于人类反馈的加强进修) 和 RLAIF (鉴于 AI 反馈的加强进修) 便是其中的关键技术。

鉴于加强进修对齐后的模型不仅可以更精准地理解用户指令，尤其是多约束以及多轮对话下的指令，还能进一步晋升生成内容的质量。但是在大模型中充分发挥加强进修的作用不仅需要稳定且高效的加强进修训练框架和高质量的优质偏序数据，还需要在 “探索与利用” 两者间进行平衡，实现模型本领持续爬坡。

对于以上问题，百川智能进行了深入研究，并给出了针对性的解决方案。加强进修训练框架方面，百川智能自研了训练推理双引擎融合、多模型并行调度的 PPO 训练框架，能够很好支持超千亿模型的高效训练，训练效率相比业界主流框架晋升 400%。偏序数据方面，百川智能创新性的采用了 RLHF 与 RLAIF 结合的方式来生成高质量优质偏序数据，在数据质量和数据成本之间获得了更好的平衡。在此基础上，对于 “探索与利用” 这一根本挑战，百川智能通过 PPO 探索空间与 Reward Model 评价空间的同步升级，实现 “迭代式加强进修”(iterative RLHF&RLAIF)。鉴于加强进修的版本爬坡，可以在 SFT 的基础上进一步发挥底座模型的潜力，让 Baichuan 3 的语义理解和生成创作本领大幅晋升。

以文本创作中最具挑战的唐诗宋词为例，作为中国传统文化的瑰宝，诗词不仅在格式、平仄、对偶、韵律等方面均有着严格的约束条件，并且内容高度凝练、寓意深远。如果仅通过 SFT 的微调进修，一方面高质量诗词的创作数据需要极高的专家成本，另一方面不能在平仄、对偶、韵律等多个方面实现较好的约束理解和遵循。此外，传统的单次 RLHF 范式在唐诗宋词面前也遇到极大挑战，PPO 在训练进程中生成的 Response 有可能超出 Reward Model 的评价范围导致 “探索” 的进程失控。

Baichuan 3 结合 “RLHF&RLAIF” 以及迭代式加强进修的方法，让大模型的诗词创作本领达到全新高度。可用性相比当前业界最好的模型水平晋升达 500%，文采远超 GPT-4。

对于宋词这种格式多变，结构深细、韵律丰富的高难度文体，生成的内容亦能工整对仗、韵脚和谐。其精准、深厚的创作功底，将让每个人都能够轻松创作出咏物、寄思的五言律诗、七言绝句，写下的言志、抒情的 “沁园春”、“定风波”，这不仅可以晋升大众的人文素养，还能助力中华传统文化在大模型时代真正地 “活” 起来。

百川智能发布超千亿大模型Baichuan 3，华文评测水平超GPT-4

作为参数规模超过千亿的大语言模型，Baichuan 3 不仅英文效果达到接近 GPT-4 的水平，还在多项通用华文义务的表现上实现了对 GPT-4 的逾越，是百川智能的全新里程碑。Baichuan 3 全面的通用本领以及在调理范围的强大表现，将为百川智能打造 “超级应用”，把大模型技术落地到诸多复杂应用场景提供有力支撑。

{{userData.name}}已认证

百川智能发布超千亿大模型Baichuan 3，华文评测水平超GPT-4

何恺明谢赛宁团队步步解构散布模型，最后竟成典范去噪自编码器

大模型也能切片，微软SliceGPT让LLAMA-2算计效率大增

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践