微软 rStar-Math 技术登场：小语言 AI 模型数学推理从“不及格”一跃成为“优等生”

作者：故渊

2025-01-11 12:12

微软亚洲研究院旗下数学和人工智能研究团队昨日（1 月 10 日）发布博文，针对小语言模型，设计并开发了 rStar-Math 技术，专门用于解决数学问题。

微软亚洲研究院旗下数学和人工智能研究团队昨日（1 月 10 日）发布博文，针对小语言模型，设计并开发了 rStar-Math 技术，专门用于解决数学问题。

和微软之前推出的 Phi-4 不同，rStar-Math 采用蒙特卡洛树搜索（Monte Carlo Tree Search）进行推理，这种方法模拟了人类逐步解决问题的思维方式，能够将复杂问题分解成更小的部分，逐步求解。

微软 rStar-Math 技术登场：小语言 AI 模型数学推理从“不及格”一跃成为“优等生”

研究人员要求模型输出自然语言描述和 Python 代码形式的“思维链”步骤，并将自然语言作为 Python 代码注释，仅使用 Python 代码输出训练模型。

微软 rStar-Math 技术登场：小语言 AI 模型数学推理从“不及格”一跃成为“优等生”

研究人员训练了一个“策略模型”生成数学推理步骤，并使用“过程偏好模型”（PPM）选择最有希望的解题步骤。这两个模型通过四轮“自我进化”互相改进，不断提升性能。

研究人员使用了 74 万道公开的数学应用题及其解答作为初始数据，并利用上述两个模型生成了新的解题步骤。

测试结果显示，应用 rStar-Math 技术后，Qwen2.5-Math-7B 模型的准确率从 58.8% 跃升至 90.0%，将 Phi3-mini-3.8B 从 41.4% 提升到 86.4%，分别比 OpenAI 的 o1-preview 模型高 4.5% 和 0.9%。

微软 rStar-Math 技术登场：小语言 AI 模型数学推理从“不及格”一跃成为“优等生”

研究团队已在 Hugging Face 上宣布，计划将 rStar-Math 的代码和数据在 GitHub 上公开，方便其他研究者使用和改进。

AI在线附上参考地址

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
Hugging Face

盘点微软Ignite 2024大会上关于Azure AI的五大公告

微软在近日举行的Ignite . 2024大会上公布了一系列进展，标志着向自主AI代理战略的转变，旨在提高各个部门的运营效率和生产力。这项计划的核心，是把Copilot与基于代理的系统进行集成，反映出微软将辅助AI工具转变为能够以最少人为干预执行复杂任务的自主代理。

11/26/2024 3:08:59 PM

Mistral AI新模型对标GPT-4，不开源且与微软合作，网友：忘了初心

「欧洲版 OpenAI」的「最强开源大模型」，被微软收编了。生成式 AI 领域，又有重量级产品出现。周一晚间，Mistral AI 正式发布了「旗舰级」大模型 Mistral Large。与此前的一系列模型不同，这次 Mistral AI 发布的版本性能更强，体量更大，直接对标 OpenAI 的 GPT-4。而新模型的出现，也伴随着公司大方向的一次转型。随着 Mistral Large 上线，Mistral AI 推出了名为 Le Chat 的聊天助手（对标 ChatGPT），任何人都可以试试效果。试用链接：，Mi

2/27/2024 3:08:00 PM

机器之心

微软 Microsoft 365 版 Copilot 4 月 1 日面向高校推出，拥有 A3 / A5 许可证可免费用

微软今日宣布将面向更多的教育用户提供 Copilot 及 AI 工具包，希望为教育工作者提供免费的 AI 功能以节省时间。微软表示，具有商业数据保护功能的 Microsoft Copilot 现已嵌入所有 Microsoft 365 教育产品中，包括零成本许可证，将提供给所有 18 岁及以上的教师和高校学生，并将在今年春季启动针对年轻学生的私人预览计划。微软还表示将为高校用户提供一项新优惠：专为保护学生设备而设计的 Microsoft Defender for Endpoint 将提供折扣价。从 2024 年 4

3/7/2024 7:20:26 AM

问舟

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星本地部署DeepSeek+DiFy平台构建智能体应用 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练

顶部

微软 rStar-Math 技术登场：小语言 AI 模型数学推理从“不及格”一跃成为“优等生”

相关资讯

盘点微软Ignite 2024大会上关于Azure AI的五大公告

Mistral AI新模型对标GPT-4，不开源且与微软合作，网友：忘了初心

微软 Microsoft 365 版 Copilot 4 月 1 日面向高校推出，拥有 A3 / A5 许可证可免费用