不到140块!李飞飞团队超低成本复刻DeepSeek R1推理!16张H100只训练了26分钟,与R1训练方法不同!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)太魔鬼了! 上周李飞飞团队发了篇新论文,再次降低了复刻o1能力的成本。 低到什么程度呢?

编辑 | 伊风

出品 | 51CTO技术栈(微信号:blog51cto)

太魔鬼了!上周李飞飞团队发了篇新论文,再次降低了复刻o1能力的成本。

低到什么程度呢?论文里说,在现成的预训练模型(用的是阿里系开源的Qwen2.5- 32B-Instruct)进行监督微调(SFT),使用构建的小规模数据集,仅耗时26分钟,就在16张 H100 GPU上完成训练。

据研究人员介绍,这样的算力租赁成本大约在20美元左右!

图片图片

这么省时省钱的模型,居然和o1预览版性能掰手腕:实验结果显示,在数学竞赛类问题上,s1-32B的表现超过o1-preview多达27%(MATH 和 AIME24 数据集)。

李飞飞团队的训练成果已经开源了:https: //github.com/simplescaling/s1. 

此外,研究团队还发现了一种技巧,被称为预算控制(budget forcing)策略,即调整测试时计算资源。这个方法的具体做法是强制终止模型的推理过程,或在模型尝试结束生成时多次附加“Wait”,从而延长其思考时间。这一方法能促使模型自我检查答案,往往可以纠正错误的推理步骤。

论文中用了经典的数R问题做例子,在模型差点要得出错误答案“2”时。研究人员打断了AI的思考,并在其生成内容后追加“Wait”,从而促使 s1-32B 自我修正了答案。像极了家长检查作业的样子。

图片图片

1.蒸馏:站在大模型巨人的肩膀上

李飞飞团队的s1可以说是Qwen2.5和Gemini 2.0 Flash Thinking Experimental的孩子。(在谷歌今天更新的Gemini 2.0全家桶中,Gemini 2.0 Flash的推理能力已经正式上线,摘掉了“Experimental”的帽子,并扩展到谷歌地图、搜索等应用中。)

阿里旗下通义千问(Qwen)的开源小模型,提供了s1的基座。而Gemini 2.0 Flash则是s1在推理方面的“老师”。

研究人员通过精心筛选的1000个问题及其答案,记录了Gemini 2.0 Flash Thinking Experimental的“思考过程”数据,构建了训练集。然后使用这一数据集对Qwen2.5- 32B-Instruct进行了微调。

有意思的是,这事也违反了谷歌的条款。Gemini的使用条款禁止用户对其模型进行逆向工程,以开发与Google AI产品竞争的服务。对此,Google尚未发表评论。

2.监督微调,比R1的“大规模强化学习”更省钱

在论文中,研究人员提到s1希望找到实现强推理能力和“测试时扩展”(即让AI在回答问题前思考更久)的最简单方法。

OpenAI的o1模型在推理方面的突破,引发了DeepSeek等AI实验室尝试通过不同技术加以复现。

论文指出,推理模型可以通过“监督微调”(SFT)蒸馏而成,这种方法让AI模型明确模仿数据集中某些行为。SFT的成本通常低于DeepSeek用于训练其R1模型的“大规模强化学习”方法。

因为SFT 使用了高质量的标注数据,例如,论文中提到的 s1K 数据集,仅包含 1,000 个样本,但这些样本是经过精心筛选的,具有高难度、多样性和质量。

而纯RL 方法通常需要大量的交互数据,例如,DeepSeek R1 使用了数百万个样本进行训练,这些样本的生成需要大量的计算资源和时间。

此外,相对于DeepSeek V3作为R1的底座,s1使用了更小的模型做微调。研究人员所采用的 Qwen2.5-32B-Instruct 模型进行 SFT,仅需调整少量的超参数即可获得较好的性能。由于初始的预训练模型复杂度较低,能更好地在有限的计算资源下进行训练和部署。

3.写在最后

李飞飞团队的复刻再次给人带来亿些震撼。

半个小时,20美元的投入,就能比肩OpenAI等美AI公司数百万美元所完成的成果。

学界的研究人员无需投入百万美元资金也能在AI领域取得创新突破,这无疑令人兴奋。但是,推理模型的“商品化”还有未来吗?

如果有人能用少量资金复制一个价值数百万美元的AI模型,企业的护城河还能在哪里?

但是,蒸馏只是一种廉价复现AI能力的有效方法,并不能创造出远超当前水平的全新AI模型。因此,我们可能仍然需要志向远大的梦想家,需要AI中的巨人。

参考链接:https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

相关资讯

阿里云通义千问系列 AI 开源模型升至 Qwen2:5 个尺寸、上下文长度最高支持 128K tokens

感谢通义千问(Qwen)今天宣布经过数月的努力,Qwen 系列模型从 Qwen1.5 到 Qwen2 的重大升级,并已在 Hugging Face 和 ModelScope 上同步开源。IT之家附上 Qwen 2.0 主要内容如下:5 个尺寸的预训练和指令微调模型,包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B在中文英语的基础上,训练数据中增加了 27 种语言相关的高质量数据;多个评测基准上的领先表现;代码和数学能力显著提升;增大了上下文长

斯坦福大模型评测榜 Claude 3 排名第一,阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

斯坦福大学基础模型研究中心(CRFM)6 月 11 日发布了大规模多任务语言理解能力评估(Massive Multitask Language Understanding on HELM)排行榜,其中综合排名前十的大语言模型中有两款来自中国厂商,分别是阿里巴巴的 Qwen2 Instruct(72B)和零一万物的 Yi Large(Preview)。据悉大规模多任务语言理解能力评估(MMLU on HELM)采用了 Dan Hendrycks 等人提出的一种测试方法,用于衡量文本模型在多任务学习中的准确性。这个测试

开源 AI 大模型“洗牌”:阿里通义千问 Qwen2-72B 成“王者”,傲视 Meta Llama-3、微软 Phi-3 等群雄

感谢Hugging Face 联合创始人兼首席执行 Clem Delangue 于 6 月 26 日在 X 平台发布推文,表示阿里云开源的通义千问(Qwen)指令微调模型 Qwen2-72B 在开源模型排行榜上荣登榜首。Hugging Face 公布了全新的开源大语言模型排行榜,通过 300 片英伟达 H100 GPU,重新运行 MMLU-pro 等标准评估目前主流的大语言模型,并在其要点介绍中称 Qwen2-72B 为“王者”,并表示中国的诸多开源模型在榜单上有一席之位。他表示,为了提供全新的开源大模型排行榜,使