微软 rStar-Math 技术登场:小语言 AI 模型数学推理从“不及格”一跃成为“优等生”

微软亚洲研究院旗下数学和人工智能研究团队昨日(1 月 10 日)发布博文,针对小语言模型,设计并开发了 rStar-Math 技术,专门用于解决数学问题。

微软亚洲研究院旗下数学和人工智能研究团队昨日(1 月 10 日)发布博文,针对小语言模型,设计并开发了 rStar-Math 技术,专门用于解决数学问题。

和微软之前推出的 Phi-4 不同,rStar-Math 采用蒙特卡洛树搜索(Monte Carlo Tree Search)进行推理,这种方法模拟了人类逐步解决问题的思维方式,能够将复杂问题分解成更小的部分,逐步求解。

微软 rStar-Math 技术登场:小语言 AI 模型数学推理从“不及格”一跃成为“优等生”

研究人员要求模型输出自然语言描述和 Python 代码形式的“思维链”步骤,并将自然语言作为 Python 代码注释,仅使用 Python 代码输出训练模型。

微软 rStar-Math 技术登场:小语言 AI 模型数学推理从“不及格”一跃成为“优等生”

研究人员训练了一个“策略模型”生成数学推理步骤,并使用“过程偏好模型”(PPM)选择最有希望的解题步骤。这两个模型通过四轮“自我进化”互相改进,不断提升性能。

研究人员使用了 74 万道公开的数学应用题及其解答作为初始数据,并利用上述两个模型生成了新的解题步骤。

测试结果显示,应用 rStar-Math 技术后,Qwen2.5-Math-7B 模型的准确率从 58.8% 跃升至 90.0%,将 Phi3-mini-3.8B 从 41.4% 提升到 86.4%,分别比 OpenAI 的 o1-preview 模型高 4.5% 和 0.9%。

微软 rStar-Math 技术登场:小语言 AI 模型数学推理从“不及格”一跃成为“优等生”

研究团队已在 Hugging Face 上宣布,计划将 rStar-Math 的代码和数据在 GitHub 上公开,方便其他研究者使用和改进。

AI在线附上参考地址

  • rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

  • Hugging Face

相关资讯

盘点微软Ignite 2024大会上关于Azure AI的五大公告

微软在近日举行的Ignite . 2024大会上公布了一系列进展,标志着向自主AI代理战略的转变,旨在提高各个部门的运营效率和生产力。 这项计划的核心,是把Copilot与基于代理的系统进行集成,反映出微软将辅助AI工具转变为能够以最少人为干预执行复杂任务的自主代理。

Mistral AI新模型对标GPT-4,不开源且与微软合作,网友:忘了初心

「欧洲版 OpenAI」的「最强开源大模型」,被微软收编了。生成式 AI 领域,又有重量级产品出现。周一晚间,Mistral AI 正式发布了「旗舰级」大模型 Mistral Large。与此前的一系列模型不同,这次 Mistral AI 发布的版本性能更强,体量更大,直接对标 OpenAI 的 GPT-4。而新模型的出现,也伴随着公司大方向的一次转型。随着 Mistral Large 上线,Mistral AI 推出了名为 Le Chat 的聊天助手(对标 ChatGPT),任何人都可以试试效果。试用链接:,Mi

微软 Microsoft 365 版 Copilot 4 月 1 日面向高校推出,拥有 A3 / A5 许可证可免费用

微软今日宣布将面向更多的教育用户提供 Copilot 及 AI 工具包,希望为教育工作者提供免费的 AI 功能以节省时间。微软表示,具有商业数据保护功能的 Microsoft Copilot 现已嵌入所有 Microsoft 365 教育产品中,包括零成本许可证,将提供给所有 18 岁及以上的教师和高校学生,并将在今年春季启动针对年轻学生的私人预览计划。微软还表示将为高校用户提供一项新优惠:专为保护学生设备而设计的 Microsoft Defender for Endpoint 将提供折扣价。从 2024 年 4