AI在线 AI在线

清华与上海 AI Lab 联合打造新型过程奖励模型GenPRM,让小模型超越 GPT-4o

作者:AI在线
2025-04-14 03:01
在人工智能领域,随着 OpenAI 的 o1和 DeepSeek 的 R1模型受到广泛关注,大语言模型(LLM)的推理能力和测试时扩展(TTS)技术引发了众多研究者的兴趣。 然而,在处理复杂推理问题时,如何准确评估模型每一步的回答质量,依然是一个亟待解决的难题。 为此,清华大学与上海 AI Lab 共同提出了生成式过程奖励模型(GenPRM),为过程监督推理提供了创新解决方案。

在人工智能领域,随着 OpenAI 的 o1和 DeepSeek 的 R1模型受到广泛关注,大语言模型(LLM)的推理能力和测试时扩展(TTS)技术引发了众多研究者的兴趣。然而,在处理复杂推理问题时,如何准确评估模型每一步的回答质量,依然是一个亟待解决的难题。为此,清华大学与上海 AI Lab 共同提出了生成式过程奖励模型(GenPRM),为过程监督推理提供了创新解决方案。

传统的过程奖励模型(PRM)虽然能够验证推理步骤的正确性,但由于采用了标量评分机制,难以捕捉深层次的逻辑错误。此外,PRM 的判别式建模方式也限制了其在测试阶段的扩展能力。为此,GenPRM 结合了生成式思维链推理和代码验证,并引入了测试时扩展机制,开辟了全新的研究方向。

人工智能大脑,大模型

图源备注:图片由AI生成,图片授权服务商Midjourney

GenPRM 的设计理念模拟了人类解题时的思维过程,允许模型在每一步推理时进行自然语言分析,这样不仅提高了透明性,还使得步骤评估更加可解释。同时,GenPRM 生成并执行与推理相关的 Python 代码,确保推理的可靠性。这种 “先解释、再验证” 的机制,不仅能够判断对错,还能提供具体的改进建议,显著提升了过程监督的效果。

令人惊讶的是,GenPRM 只用了23K 的训练样本,就取得了超过 GPT-4o 的优异表现。在 ProcessBench 等数学推理基准的测试中,1.5B 参数的 GenPRM 通过测试时扩展技术的加持,表现优异;而其7B 参数版本则成功超越了72B 参数的 Qwen2.5-Math-PRM,展现了强大的步骤级批评能力。

此外,GenPRM 的优势还体现在其高效的数据合成方法上。通过相对进步估计(RPE)和代码验证,GenPRM 生成了高质量的过程监督数据,大幅减少了对大量标注数据的需求。研究者们利用 QwQ-32B 模型合成数据,并通过共识过滤保留高质量样本,最终形成了这个仅有23K 的训练集。

未来,GenPRM 不仅能作为答案的验证器,也能够扮演 “教练” 的角色,通过反馈指导策略模型的迭代优化。这种 “生成 - 批评 - 反思” 的闭环为大语言模型的自我改进提供了全新的路径,未来也可能扩展到代码生成和多模态推理等领域。

项目地址:https://ryanliu112.github.io/GenPRM/

相关资讯

过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

赵俭,北京邮电大学本科三年级,研究方向为大语言模型。 刘润泽,清华大学硕士二年级,师从李秀教授,研究方向为大语言模型与强化学习,特别关注大模型推理能力增强与测试时间扩展,在 NeurIPS、ICML、ICLR、AAAI 等顶级学术会议发表多篇论文,个人主页:ryanliu112.github.io。 随着 OpenAI o1 和 DeepSeek R1 的爆火,大语言模型(LLM)的推理能力增强和测试时扩展(TTS)受到广泛关注。
4/14/2025 1:41:00 PM
机器之心

昆仑万维旗下Opera接入DeepSeek R1模型 支持本地个性化部署

2月17日,昆仑万维旗下的Opera团队在Opera Developer中接入了DeepSeek R1系列模型,实现了本地个性化部署。 这一举措标志着Opera在AI技术应用方面的进一步拓展,为用户提供了更强大的本地AI功能。 Opera在2024年率先将内置本地大语言模型(LLM)引入Web浏览器,为用户提供了超过50种LLM的访问权限。
2/20/2025 8:58:00 AM
AI在线

七彩虹推出 “虹光 AI” 助手接入全速版 DeepSeek

七彩虹科技正式宣布,其全新的 “虹光 AI” 智能模型助手已全面接入满血版 DeepSeek R1模型。 这一升级使得七彩虹的笔记本产品在性能和推理效率上得到了显著提升。 此次更新的 “虹光 AI” 助手,基于当前热门的 Transformer 架构,并采用了 MLA 与 Deep Seek MoE 技术,显著降低了内存占用,减少了缓存需求,从而提升了整体的推理效率。
2/8/2025 5:57:00 PM
AI在线