过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

2025-04-14 01:41

赵俭，北京邮电大学本科三年级，研究方向为大语言模型。刘润泽，清华大学硕士二年级，师从李秀教授，研究方向为大语言模型与强化学习，特别关注大模型推理能力增强与测试时间扩展，在 NeurIPS、ICML、ICLR、AAAI 等顶级学术会议发表多篇论文，个人主页：ryanliu112.github.io。随着 OpenAI o1 和 DeepSeek R1 的爆火，大语言模型（LLM）的推理能力增强和测试时扩展（TTS）受到广泛关注。

赵俭，北京邮电大学本科三年级，研究方向为大语言模型。刘润泽，清华大学硕士二年级，师从李秀教授，研究方向为大语言模型与强化学习，特别关注大模型推理能力增强与测试时间扩展，在 NeurIPS、ICML、ICLR、AAAI 等顶级学术会议发表多篇论文，个人主页：ryanliu112.github.io。

随着 OpenAI o1 和 DeepSeek R1 的爆火，大语言模型（LLM）的推理能力增强和测试时扩展（TTS）受到广泛关注。然而，在复杂推理问题中，如何精准评估模型每一步回答的质量，仍然是一个亟待解决的难题。传统的过程奖励模型（PRM）虽能验证推理步骤，但受限于标量评分机制，难以捕捉深层逻辑错误，且其判别式建模方式限制了测试时的拓展能力。

那么，是否有办法通过测试时拓展提升过程奖励模型的过程监督推理能力呢？

为此，清华大学联合上海 AI Lab 提出生成式过程奖励模型 ——GenPRM，将生成式思维链推理（CoT）与代码验证相结合，并引入测试时拓展机制，为过程监督推理提供了新思路。与 DeepSeek 近期发布的逐点生成奖励模型（GRM）类似，GenPRM 也通过生成式建模和测试时扩展增强奖励模型的推理能力，但 GenPRM 更专注于过程奖励模型，弥补了 GRM 在过程监督方面的不足。

论文标题：GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning
论文链接：http://arxiv.org/abs/2504.00891
项目链接：https://ryanliu112.github.io/GenPRM
GitHub：https://github.com/RyanLiu112/GenPRM
HuggingFace：https://huggingface.co/GenPRM

在 ProcessBench 等数学推理基准的测试中，GenPRM 展现出惊人实力：仅 1.5B 参数的模型通过测试时扩展超越 GPT-4o，而 7B 参数版本更是击败 72B 参数的 Qwen2.5-Math-PRM-72B，同时表现出强大的步骤级批评能力。

GenPRM：从评分到推理，再到测试时扩展

现有过程奖励模型依赖分类器式的标量评分，这种 “黑箱” 机制导致两个核心问题：一是无法解释错误根源，仅能判断步骤 “对错”，却无法解释 “为何错”，二是无法通过增加模型测试时间计算资源提升判断精度。

生成式过程奖励模型

为了突破这些瓶颈，GenPRM 引入生成式设计，彻底革新过程监督范式：

思维链推理：GenPRM 模拟人类解题时的逻辑推导，对每一步推理进行自然语言分析，提供透明、可解释的步骤评估。
代码验证：为确保推理的可靠性，GenPRM 还会生成并执行对应数学运算的 Python 代码，将文字推导与实际计算结果交叉验证。例如，在求解三角函数表达式时，模型先分析角度转换的合理性，再通过代码计算具体数值，避免 “符号推导正确但计算失误” 的情况。

其奖励推理过程可以表示为：

其中 s_t 为当前状态，a_t 为当前步骤，v_1:t−1 和 f_1:t-1 分别为之前步骤的推理过程和代码执行反馈，v_t 和 f_t 为当前步骤的推理与反馈。这种 “先解释、再验证” 的机制不仅能判断对错，还能提供步骤级别的批评改进建议和严谨准确的反馈，大幅提升了过程监督的深度和实用性。

测试时扩展

在推理阶段，GenPRM 通过并行采样 N 条推理路径，综合多条路径的奖励值并取平均，得到最终奖励：

这种策略充分利用额外计算资源，进一步提升评估精度，使小模型也能在复杂任务中表现出色。

数据高效：23K 样本背后的合成秘密

GenPRM 的另一个亮点是仅使用 23K 训练样本就取得了优异的性能，远少于许多模型动辄数十万级的数据量（如 PRM800K 需 80 万人工标注），其高效性源于独特的数据合成方法，结合相对进步估计（RPE）和代码验证，生成高质量的过程监督数据。

通过相对进步估计改进硬估计

传统过程奖励模型通过蒙特卡罗（MC）分数进行硬估计，研究者观察到尽管许多步骤的 MC 分数大于 0，但这些步骤是却存在错误。RPE 通过比较当前状态和上一状态的 MC 分数，用 “进步幅度” 评估每步质量，比传统硬标签更准确。其形式化如下：

其中，MC (s_t, a_t) 表示当前步骤的蒙特卡罗分数，MC (s_t) 表示上一步骤的蒙特卡罗分数。若进步幅度低于阈值（ϵ=0.8），则判定步骤无效；若首步错误（MC 为 0），后续步骤分数归零。这种方法显著提升标签准确性，避免了硬估计的误判。

代码验证驱动的数据合成

研究者利用 QwQ-32B 模型合成 CoT 和代码验证推理数据，通过在 Python 环境中真实执行代码重复检验 CoT 推理过程。使用共识过滤（过滤率 51%），保留高质量过程监督数据，最终得到 23K 训练数据集。

测试时扩展：小模型的逆袭

在 ProcessBench 过程监督基准测试中，GenPRM 展现出显著优势：

仅用 23K 训练数据的 1.5B GenPRM，通过多数投票（Maj@8）的测试时计算扩展策略，其 F1 分数超越 GPT-4o；
7B 版本的 GenPRM 以 80.5% 的 F1 分数一举超过 72B 参数的 Qwen2.5-Math-PRM-72B。

这一结果证明，测试时扩展能有效放大过程奖励模型的能力，使小模型实现性能飞跃。

此外，GenPRM 同样适用于策略模型测试时扩展。通过 Best-of-N 实验，GenPRM-7B 展现出相比于基线方法更加优异的筛选能力，并可通过测试时扩展进一步增强过程监督能力。

从验证器到批评者：过程奖励模型新范式

GenPRM 不仅能当 “裁判”，作为验证器（Verifier）筛选答案，还能当 “教练”，作为步骤级别的批评模型（Critic）指导策略模型迭代优化原始回答。实验表明，GenPRM 通过 3 轮反馈将策略模型的回答准确率从 45.7% 提升至 51.5%，性能提升达到基线方法的 3.4 倍。

这种 “生成 - 批评 - 反思” 的闭环，验证了 GenPRM 不仅可以作为验证器验证答案的准确性，还可以作为批评者，为模型完善自身输出提供逐步关键指导，为大语言模型的自我改进提供了可解释的技术路径。

研究者已开源代码、模型及 23K 训练数据集。该工作为大语言模型的可解释过程监督提供了新思路，未来可扩展至代码生成、多模态推理等领域。

清华与上海 AI Lab 联合打造新型过程奖励模型GenPRM，让小模型超越 GPT-4o

在人工智能领域，随着 OpenAI 的 o1和 DeepSeek 的 R1模型受到广泛关注，大语言模型（LLM）的推理能力和测试时扩展(TTS)技术引发了众多研究者的兴趣。然而，在处理复杂推理问题时，如何准确评估模型每一步的回答质量，依然是一个亟待解决的难题。为此，清华大学与上海 AI Lab 共同提出了生成式过程奖励模型(GenPRM)，为过程监督推理提供了创新解决方案。

4/14/2025 3:01:07 PM

AI在线

调查：超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告，企业在人工智能（AI）领域的投资高达2.5亿美元，尽管在证明投资回报率(ROI)方面面临挑战。商业领袖们正努力提高生产力，但新技术的集成往往需要重构现有应用、更新流程并激励员工学习，以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查，以揭示 AI 采用的现实情况，探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。

3/18/2025 10:02:00 AM

AI在线

降低门槛，全平台应用，昇腾还会手把手地教你如何用AI

机器之心报道作者：泽南如何才能做到 AI 应用一次开发，全场景部署？昇腾给出了答案。如今的大多数 AI 应用程序都需要跑在多种类型的处理器上，覆盖数十个版本的操作系统，运行在从端侧到云计算集群的各种设备上。这样复杂的环境，对软件的适应性和模型的可裁剪、可伸缩性提出了极高要求。AI 开源框架也在顺应这股潮流，昇腾发布的 CANN、MindSpore、MindX 等工具，可以让开发者实现「统一端边云，全端自动部署」，开启了机器学习开发的新时代，一直被人们寄予厚望。昇腾的 AI 全栈软件平台。其中，基础架构作为连接硬件与

3/19/2021 11:23:00 AM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

相关资讯

清华与上海 AI Lab 联合打造新型过程奖励模型GenPRM，让小模型超越 GPT-4o

调查：超72% 的企业选择 AI 工具时最看重易用性

降低门槛，全平台应用，昇腾还会手把手地教你如何用AI