MATH

阿里云通义开源最强过程奖励PRM模型，7B尺寸比GPT-4o更能发现推理错误

1月16日，阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM，72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型；在识别推理错误步骤能力上，Qwen2.5-Math-PRM以7B的小尺寸就超越了GPT-4o。同时，通义团队还开源首个步骤级的评估标准 ProcessBench，填补了大模型推理过程错误评估的空白。在当前大模型推理过程中，不时存在逻辑错误或编造看似合理的推理步骤，如何准确识破过程谬误并减少它，对增强大模型推理能力、提升推理可信度尤为关键。

1/16/2025 3:02:00 PM

新闻助手

通义千问开源Qwen2-Math，成为最先进的数学专项模型

8月9日消息，阿里通义团队开源新一代数学模型Qwen2-Math，包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发，旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等，以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题，成为最先进的数学专项模型。注：在MATH基准测评中，通义千问数学模

8/9/2024 3:42:00 PM

新闻助手

Qwen2-Math 开源 AI 模型发布：阿里通义千问家族新成员，数学能力超 GPT-4o

感谢阿里通义千问 Qwen2 开源家族迎来新成员 Qwen2-Math，共有 15 亿参数、70 亿参数和 720 亿参数三个版本，是基于 Qwen2 LLM 构建、专门用于数学解题的语言模型。简介Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型，其数学能力显著超越了开源模型，甚至超过了闭源模型（如 GPT-4o），官方希望为科学界解决需要复杂多步逻辑推理的高级数学问题做出贡献。性能团队在一系列数学基准评测上评估了我们的数学专用模型 Qwen2-Math。在 Math 上的评

8/9/2024 10:02:30 AM

故渊

陶哲轩力荐、亲自把关：AI for Math照这个清单学就对了

在 AI for Math 领域，如果你一直找不到合适的资源，这份清单或许会有帮助。刚刚，著名数学家陶哲轩的个人博客又更新了，这次他们整理了一份有用的资源列表，该资源专注于 AI for Math，专为那些希望进入数学 AI 领域的人提供帮助。这份清单发起时间最早可追溯到去年，发起机构由美国国家科学院、工程院和医学院组织的研讨会「人工智能辅助数学推理」提出，陶哲轩担任研讨会主持人。目前，网址资源已经公开。网址：，这是一个初步的资源列表，最初由 UIUC 教授 Talia Ringer 整理，供那些希望进入 AI 数

4/16/2024 11:27:00 AM

机器之心

数学奥赛冠军都做不对的题，却被拿来考ML模型？GPT-3：我不行

为了衡量机器学习模型的数学求解能力，来自 UC 伯克利和芝加哥大学的研究者提出了一个包含 12, 500 道数学竞赛难题的新型数据集 MATH，以及帮助模型学习数学基础知识的预训练数据集 AMPS。研究发现，即使是大参数的 Transformer 模型准确率也很低。

3/16/2021 2:44:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练