研究人员开源 Sky-T1 推理 AI 模型,训练成本不到 450 美元

本周,来自加州大学伯克利分校 Sky Computing 实验室的研究团队 NovaSky 发布了一款名为 Sky-T1-32B-Preview 的推理模型。该模型在多项关键基准测试中的表现可与 OpenAI 早期版本的 o1 模型相媲美。值得注意的是,Sky-T1-32B-Preview 似乎是首个真正意义上的开源推理模型,其训练数据集和代码均已公开,用户可以从零开始复现该模型。

本周,来自加州大学伯克利分校 Sky Computing 实验室的研究团队 NovaSky 发布了一款名为 Sky-T1-32B-Preview 的推理模型。该模型在多项关键基准测试中的表现可与 OpenAI 早期版本的 o1 模型相媲美。值得注意的是,Sky-T1-32B-Preview 似乎是首个真正意义上的开源推理模型,其训练数据集和代码均已公开,用户可以从零开始复现该模型。

研究人员开源 Sky-T1 推理 AI 模型,训练成本不到 450 美元

NovaSky 团队在博客中透露,Sky-T1-32B-Preview 的训练成本不到 450 美元(AI在线备注:当前约 3306 元人民币),远低于以往同类模型的数百万美元。这一突破得益于合成训练数据的广泛应用,合成数据是由其他模型生成的数据,能够显著降低训练成本。例如,AI 公司 Writer 最近发布的 Palmyra X 004 模型几乎完全依赖合成数据训练,开发成本仅为 70 万美元。

与大多数 AI 模型不同,推理模型具备自我事实核查能力,能够有效避免一些常见错误。尽管推理模型在解决问题时通常比非推理模型需多花费几秒到几分钟,但在物理、科学和数学等领域,其可靠性更高。

NovaSky 团队表示,Sky-T1 的训练数据由阿里巴巴的 QwQ-32B-Preview 推理模型生成,随后经过精心筛选,并利用 OpenAI 的 GPT-4o-mini 对数据进行重构,使其更易于处理。训练这款拥有 320 亿参数的模型仅耗时约 19 小时,使用了 8 台 Nvidia H100 GPU。(参数数量大致对应模型的解决问题能力。)

在性能方面,Sky-T1 在 MATH500(一组“竞赛级”数学挑战)上的表现优于 o1 的早期预览版本,同时在 LiveCodeBench 的编程评估中也表现更佳。然而,在 GPQA-Diamond 测试中(包含物理学、生物学和化学领域的研究生水平问题),Sky-T1 略逊于 o1 预览版。

需要指出的是,OpenAI 已发布的 o1 正式版比预览版更强大,且预计未来几周内将推出性能更优的推理模型 o3。尽管如此,NovaSky 团队表示,Sky-T1 只是他们开发开源推理模型的起点。

团队在博客中写道:“未来,我们将专注于开发更具效率的模型,同时保持强大的推理性能,并探索先进技术以进一步提升模型在测试时的效率和准确性。请继续关注我们在这些激动人心的项目上取得的进展。”

相关资讯

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

编辑 | ScienceAI近日,卡内基梅隆大学(Carnegie Mellon University)教授,有着「机器学习之父」之称的 Tom M. Mitchell 撰写了新的 AI for Science 白皮书,重点讨论了「人工智能如何加速科学发展?美国政府如何帮助实现这一目标?」这一主题。ScienceAI 对白皮书原文进行了不改变原意的全文编译,内容如下。人工智能领域最近取得了显著进展,包括 GPT、Claude 和 Gemini 等大型语言模型,因此提出了这样一种可能性:人工智能的一个非常积极的影响,

.ai 域名卖爆,小岛安圭拉 2023 年意外躺赚 3200 万美元

感谢随着人工智能产业的火热,AI 域名也成为了新的热门,包括 .ai 后缀等自然是交易重点。据美联社 10 月 16 日报道,.ai 域名卖爆也为加勒比海的一个小岛 —— 安圭拉带来了一笔横财。AI在线查询公开资料获悉,安圭拉(英语:Anguilla)是英国 14 个海外领土之一,位于加勒比海小安的列斯群岛北部,面积 91 平方公里,在 1650 年成为英国殖民地,后续经历一系列波折,于 1980 年成为单独的英国属地。

知乎直答:AI 搜索产品从 0 到 1 实践探索

一、知乎直答产品介绍知乎直答是具有强社区属性的通用 AI 搜索产品,但并非社区版 AI 搜索。 知乎直答具有以下几大优势:认真专业:与知乎专注专业内容生产的调性相符,严格把控参考来源与质量,确保回答认真且专业。 连接创作者:可在使用中关注、与创作者交流互动获取专业见解。