阿里云确认:李飞飞团队 s1 模型基于 Qwen2.5-32B-Instruct 模型训练

李飞飞团队 s1 模型被指“并非从零开始训练”,其基座模型为“阿里通义千问(Qwen)模型”。对此,新浪科技向阿里云方面求证,阿里云方面确认了这一消息。

今日,李飞飞研究团队以不到 50 美元的云计算费用训练了一个名叫 s1 的人工智能推理模型,该模型在数学和编码能力测试中的表现与 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型类似。

不过很快,该 s1 模型被指“并非从零开始训练”,其基座模型为“阿里通义千问(Qwen)模型”。对此,新浪科技向阿里云方面求证,阿里云方面确认了这一消息

阿里云回应称:“他们以阿里通义千问 Qwen2.5-32B-Instruct 开源模型为底座,在 16 块 H100 GPU 上监督微调 26 分钟,训练出新模型 s1-32B,取得了与 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型数学及编码能力相当的效果,甚至在竞赛数学问题上的表现比 o1-preview 高出 27%。”

阿里云确认:李飞飞团队 s1 模型基于 Qwen2.5-32B-Instruct 模型训练

据AI在线此前报道,s1 团队透露他们通过“蒸馏”技术创建了该人工智能模型,该技术旨在通过训练模型来学习另一个人工智能模型的答案,从而提取其“推理”能力。

s1 的论文表明,可以使用一种称为监督微调(SFT)的方法,可以使用相对较小的数据集来蒸馏推理模型。在 SFT 中,人工智能模型会被明确指示在数据集中模仿某些行为。SFT 比 DeepSeek 用于训练其 R1 模型的大规模强化学习方法更具成本效益。

s1 基于阿里巴巴旗下中国人工智能实验室 Qwen 提供的一款小型、现成的免费人工智能模型。为了训练 s1,研究人员创建了一个仅包含 1000 个精心策划的问题的数据集,以及这些问题的答案,以及谷歌 Gemini 2.0 Flash Thinking Experimental 给出的每个答案背后的“思考”过程。

相关资讯

AI 发现16万种新RNA病毒成果登上《Cell》后,我们和阿里云算法专家贺勇聊了聊

近期,AI for Science 领域的惊喜不断,持续在物理、化学、生物领域开花结果。 不仅诺贝尔物理和化学奖双双颁给 AI 领域的科学家,阿里云与中山大学的科研也带来了RNA病毒寻找的突破,国际顶级学术期刊《Cell》收录了这一研究论文。 《基于人工智能探索和记录隐藏的RNA病毒世界》论文提出深度学习模型"LucaProt",用于快速准确判别RNA病毒,颠覆传统病毒发现方法。

训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

跟大模型说:要多想。 今年 1 月,DeepSeek R1 引爆了全球科技界,它创新的方法,大幅简化的算力需求撼动了英伟达万亿市值,更引发了全行业的反思。 在通往 AGI(通用人工智能)的路上,我们现在不必一味扩大算力规模,更高效的新方法带来了更多的创新可能。

成本不足50美元!研究人员训练出AI推理模型s1,媲美OpenAI的o1

近期,斯坦福大学和华盛顿大学的 AI 研究人员成功训练出了一款名为 s1的 AI 推理模型,训练成本不足50美元,所需的云计算信用额度也非常低。 这项研究成果于上周五发布,表明 s1在数学和编程能力测试上表现不逊于 OpenAI 的 o1模型和 DeepSeek 的 R1模型。 s1的代码和数据已在 GitHub 上公开,供其他研究者使用。