重磅!斯坦福等高效联手推出AI训练新方法S1,成本暴降性能飙升!

斯坦福大学和华盛顿大学的研究团队近日联合发布了一项突破性的AI训练方法,该方法名为S1,其核心理念在于利用极简的测试时缩放技术来显著提升语言模型的推理能力。 与以往依赖庞大算力或复杂算法不同,S1方法巧妙地通过控制模型在测试时的计算资源分配,实现了性能的飞跃。 S1方法首先精心构建了一个名为s1K的小型数据集,其中包含1000个高质量的推理问题。

斯坦福大学和华盛顿大学的研究团队近日联合发布了一项突破性的AI训练方法,该方法名为S1,其核心理念在于利用极简的测试时缩放技术来显著提升语言模型的推理能力。与以往依赖庞大算力或复杂算法不同,S1方法巧妙地通过控制模型在测试时的计算资源分配,实现了性能的飞跃。

S1方法首先精心构建了一个名为s1K的小型数据集,其中包含1000个高质量的推理问题。该数据集的筛选标准非常严格,必须同时满足难度高、多样性强、质量优良三个条件。研究团队通过详尽的消融实验验证了这三个标准的重要性,结果表明,随机选择或仅关注单一标准都会导致性能大幅下降。值得一提的是,即使使用包含5.9万个样本的超集进行训练,其效果也远不如精心挑选的1000个样本,这突显了数据选择的关键性。

image.png

在模型训练完成后,研究人员采用一种名为“预算强制”的技术来控制测试时计算量。简单来说,这种方法通过强制终止模型的思考过程或添加“等待”指令来延长模型的思考时间,从而引导模型进行更深入的探索和验证。通过这种方式,模型能够反复检查推理步骤,有效纠正错误。

实验结果表明,经过在s1K数据集上的微调和“预算强制”技术的加持,s1-32B模型在竞赛级数学问题上的表现超越了OpenAI的o1-preview模型高达27%。更令人惊喜的是,通过“预算强制”进行缩放,s1-32B模型还展现出了超出自身训练水平的泛化能力,在AIME24测试集上的得分从50%提升至57%。

image.png

该研究的核心贡献在于,它提供了一套简单高效的方法,用于创建具有高推理能力的数据集,并实现测试时的性能缩放。基于此,研究团队打造了s1-32B模型,其性能完全可以媲美甚至超越闭源模型,同时做到了开源、高样本效率。该研究的代码、模型和数据已在GitHub上开源。

研究人员还对数据的细微之处以及测试时缩放技术进行了深入的消融实验。在数据方面,他们发现同时考虑难度、多样性和质量是至关重要的。在测试时缩放方面,“预算强制”方法展现出极佳的可控性和性能提升。该研究还探讨了并行缩放和顺序缩放两种不同的方法,并引入了REBASE等高级技术,为未来的研究方向提供了重要的启示。

这项研究不仅为AI训练领域带来了一种低成本、高效益的新思路,也为更广泛的AI应用奠定了坚实的基础。

论文地址:https://arxiv.org/pdf/2501.19393

相关资讯

训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

跟大模型说:要多想。 今年 1 月,DeepSeek R1 引爆了全球科技界,它创新的方法,大幅简化的算力需求撼动了英伟达万亿市值,更引发了全行业的反思。 在通往 AGI(通用人工智能)的路上,我们现在不必一味扩大算力规模,更高效的新方法带来了更多的创新可能。

成本不足50美元!研究人员训练出AI推理模型s1,媲美OpenAI的o1

近期,斯坦福大学和华盛顿大学的 AI 研究人员成功训练出了一款名为 s1的 AI 推理模型,训练成本不足50美元,所需的云计算信用额度也非常低。 这项研究成果于上周五发布,表明 s1在数学和编程能力测试上表现不逊于 OpenAI 的 o1模型和 DeepSeek 的 R1模型。 s1的代码和数据已在 GitHub 上公开,供其他研究者使用。

会颠勺的国产机器人来了:大模型加持,家务能力满分

随着 AI 向 AGI(通用人工智能)的圣杯方向加速发展,大模型与机器人的结合是必然趋势。数十年来,单一用途机器人市场已趋于饱和,AI 通用机器人的巨大潜力急待开垦。刚刚,来自星尘智能公司的自研 AI 机器人 Astribot S1,在同规格机器人中展现了「最强操作性能」。在未经加速处理的 1 倍速视频中(业界常见为 3 到 10 倍速),S1 机器人展示了家居、工作场景中的卓越性能,完成了叠衣、分拣物品、颠锅炒菜、吸尘清洁、竞技叠杯等一系列复杂任务。S1 通过模仿学习,能以媲美成年人的敏捷、灵活和丝滑度,执行多项