豆包大模型团队开源RLHF框架，训练吞吐量最高提升20倍

强化学习（RL）对大模型复杂推理能力提升有关键作用，但其复杂的计算流程对训练和部署也带来了巨大挑战。近日，字节跳动豆包大模型团队与香港大学联合提出 HybridFlow。这是一个灵活高效的 RL/RLHF 框架，可显著提升训练吞吐量，降低开发和维护复杂度。

强化学习（RL）对大模型复杂推理能力提升有关键作用，但其复杂的计算流程对训练和部署也带来了巨大挑战。近日，字节跳动豆包大模型团队与香港大学联合提出 HybridFlow。这是一个灵活高效的 RL/RLHF 框架，可显著提升训练吞吐量，降低开发和维护复杂度。实验结果表明，HybridFlow 在各种模型规模和 RL 算法下，训练吞吐量相比其他框架提升了 1.5 倍至 20 倍。

在大模型后训练（Post-Training）阶段引入 RL 方法，已成为提升模型质量和对齐人类偏好的重要手段。然而，随着模型规模的不断扩大，RL 算法在大模型训练中面临着灵活性和性能的双重挑战。传统的 RL/RLHF 系统在灵活性和效率方面存在不足，难以适应不断涌现的新算法需求，无法充分发挥大模型潜力。

据豆包大模型团队介绍，HybridFlow 采用混合编程模型，将单控制器的灵活性与多控制器的高效性相结合，解耦了控制流和计算流。基于 Ray 的分布式编程、动态计算图、异构调度能力，通过封装单模型的分布式计算、统一模型间的数据切分，以及支持异步 RL 控制流，HybridFlow 能够高效地实现和执行各种 RL 算法，复用计算模块和支持不同的模型部署方式，大大提升了系统的灵活性和开发效率。

豆包大模型团队开源RLHF框架，训练吞吐量最高提升20倍

实验结果显示，无论 PPO 、ReMax 还是 Safe-RLHF 算法，HybridFlow 在所有模型规模下平均训练吞吐量均大幅领先于其他框架，提升幅度在 1.5 倍至 20 倍之间。随着 GPU 集群规模扩大，HybridFlow 吞吐量也获得良好扩展。这得益于其灵活的模型部署，充分利用硬件资源，实现高效并行计算。同时，HybridFlow 能够支持多种分布式并行框架（Megatron-LM 、FSDP 、vLLM ），满足不同模型规模的计算需求。

随着 o1 模型诞生，大模型 Reasoning 能力和 RL 愈发受到业界关注。豆包大模型团队表示，将继续围绕相关场景进行探索和实验。目前，HybridFlow 研究论文已入选学术顶会 EuroSys 2025，代码也已对外开源。

HybridFlow开源链接：https://github.com/volcengine/veRL

{{userData.name}}已认证

豆包大模型团队开源RLHF框架，训练吞吐量最高提升20倍

夸克发布“灵知”学习大模型，号称考研数学题正确率、得分率比肩 OpenAI o1

奥特曼回答一切：Ilya确实看到了了不起的东西，OpenAI也缺算力

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！