训练成本不到 50 美元,研究人员打造出媲美 OpenAI o1 的推理模型

一份上周五发布的研究报告显示,斯坦福大学和华盛顿大学的人工智能研究人员仅花费不到 50 美元(IT之家备注:当前约 364 元人民币)的云计算费用,就成功训练出一个具备“推理”能力的人工智能模型。

一份上周五发布的研究报告显示,斯坦福大学和华盛顿大学的人工智能研究人员仅花费不到 50 美元(AI在线备注:当前约 364 元人民币)的云计算费用,就成功训练出一个具备“推理”能力的人工智能模型。

该模型名为 s1,在数学和编程能力测试中表现出与 OpenAI 的 o1 和 DeepSeek 的 r1 等顶尖推理模型相似的水平。目前,s1 模型及其训练所用的数据和代码已在 GitHub 上开源。

训练成本不到 50 美元,研究人员打造出媲美 OpenAI o1 的推理模型

s1 团队表示,他们通过“蒸馏”技术创建了该人工智能模型,该技术旨在通过训练模型来学习另一个人工智能模型的答案,从而提取其“推理”能力。研究人员透露,s1 是从谷歌的推理模型 Gemini 2.0 Flash Thinking Experimental 中蒸馏出来的。上个月,加州大学伯克利分校的研究人员也使用了相同的蒸馏方法,以约 450 美元的成本创建了一个人工智能推理模型。

类似 s1 模型的出现也引发了关于人工智能模型商品化的问题 —— 如果有人可以用相对较低的成本就能复制一个价值数百万美元的模型,那么大型科技公司的“护城河”在哪里呢?

不出所料,大型人工智能实验室对此并不满意,例如 OpenAI 此前就指责 DeepSeek 不当获取其 API 数据用于模型蒸馏。

s1 的研究人员希望找到实现强大推理性能和“测试时扩展”(即允许人工智能模型在回答问题之前进行更多思考)的最简单方法,这些是 OpenAI 的 o1 中的一些突破。

s1 的论文表明,可以使用一种称为监督微调(SFT)的方法,可以使用相对较小的数据集来蒸馏推理模型。在 SFT 中,人工智能模型会被明确指示在数据集中模仿某些行为。SFT 比 DeepSeek 用于训练其 R1 模型的大规模强化学习方法更具成本效益。

谷歌通过其 Google AI Studio 平台免费提供 Gemini 2.0 Flash Thinking Experimental 模型的访问权限,但每天有使用限制。然而,其条款禁止对模型进行逆向工程,以开发与谷歌自身人工智能产品竞争的服务。

S1 基于阿里巴巴旗下中国人工智能实验室 Qwen 提供的一款小型、现成的免费人工智能模型。为了训练 s1,研究人员创建了一个仅包含 1000 个精心策划的问题的数据集,以及这些问题的答案,以及谷歌 Gemini 2.0 Flash Thinking Experimental 给出的每个答案背后的“思考”过程。

研究人员表示,在训练 s1 后(使用 16 个 Nvidia H100 GPU,耗时不到 30 分钟),s1 在某些人工智能基准测试中取得了良好的表现。参与该项目的斯坦福大学研究员 Niklas Muennighoff 告诉 TechCrunch,目前租用这些计算资源的成本约为 20 美元。

研究人员使用了一个巧妙的技巧来让 s1 检查其工作并延长其“思考”时间:他们让它“等待”。论文显示,在 s1 的推理过程中添加“等待”一词,有助于模型获得稍微更准确的答案。

相关资讯

2024 年 AI 十大故事,透视技术变革与未来挑战

编辑 | 20492024 年,人工智能技术持续改变着我们的生活和工作方式。 IEEE Spectrum 精选了年度最具影响力的 10 个 AI 故事,从技术突破到社会影响,全方位展现了 AI 发展的现状与挑战。 这些故事不仅反映了生成式 AI 的革命性进展,也揭示了其存在的局限与争议。

AI“短板”暴露:研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%

这项研究由奥地利复杂科学研究所(CSH)的团队主导,旨在测试三大顶尖大型语言模型(LLMs)——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini—— 在历史问题上的表现。研究团队开发了一个名为“Hist-LLM”的基准测试工具,其根据 Seshat 全球历史数据库来测试答案的正确性,Seshat 全球历史数据库是一个以古埃及智慧女神命名的庞大历史知识数据库。 研究结果于上月在知名 AI 会议 NeurIPS 上公布,结果显示,即使是表现最佳的 GPT-4 Turbo 模型,其准确率也仅为 46%,并不比随机猜测高多少。

AI 分析了 14500 多场财报电话会议,发现大部分 CEO 患有抑郁症

研究显示,患有抑郁症的 CEO 往往面临更多职场挑战。具体而言,CEO 的心理健康问题与公司面临的风险相关,例如诉讼或股票回报波动。此外,有限的证据表明,患有抑郁症的 CEO 更可能获得更高的薪酬,且薪酬中基于绩效的部分比例更高。这些 CEO 多为年轻男性,女性比例较低。