DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

作者：量子位

2025-04-07 08:15

有点意思。这不DeepSeek前脚刚刚上新了一篇关于推理时Scaling Law的论文嘛，引得大家纷纷联想是不是R2马上要来了。然鹅……奥特曼这边却发了一条“变卦”的消息：计划改变：我们可能在几周之后先发布o3和o4-mini。

有点意思。

这不DeepSeek前脚刚刚上新了一篇关于推理时Scaling Law的论文嘛，引得大家纷纷联想是不是R2马上要来了。

然鹅……奥特曼这边却发了一条“变卦”的消息：

计划改变：我们可能在几周之后先发布o3和o4-mini。

至于大家翘首以盼的GPT-5，奥特曼表示：

将在几个月之后，而且效果会比我们最初设想的还要好。

至于原因，奥特曼也做出了解释。

大概意思就是，顺利整合所有内容比他们想象的要困难得多，希望确保有足够的能力来支持预期的需求。

咱就是说啊，现在真的是DeepSeek这边一有点声响，OpenAI那边就得有点动作来紧跟一下了。

DeepSeek新论文

在这个小插曲之后呢，我们还是把目光聚焦在DeepSeek这篇新论文身上。

这篇论文的名字叫做Inference-Time Scaling for Generalist Reward Modeling，由DeepSeek和清华大学共同提出。

这篇研究核心的亮点，就是提出了一个叫做SPCT方法（Self-Principled Critique Tuning）的方法——

首次提出通过在线强化学习（RL）优化原则和批判生成，实现推理时扩展。

之所以要做这么一项研究，是因为之前大家用奖励模型（Reward Model, RM）在RL中为大语言模型生成奖励信号。

但现有的RM在通用领域却表现出受限的情况，尤其是在面对复杂、多样化任务的时候。

因此，就出现了两个关键挑战点。

一个是通用RM需要灵活性（支持单响应、多响应评分）和准确性（跨领域高质量奖励）。

另一个则是现有RM（如标量RM、半标量RM）在推理时扩展性差，无法通过增加计算资源显著提升性能。

为了解决这个问题，DeepSeek和清华大学团队便提出了SPCT。

整体来看，这项研究主要包含三大核心技术点。

首先就是生成式奖励模型（GRM）。

它采用点式生成奖励模型（Pointwise GRM），通过生成文本形式的奖励（如critiques）而非单一标量值，支持灵活输入（单响应、多响应）和推理时扩展。

其中，C是生成的critique，fextract从中提取分数。

接下来，是关键的SPCT了。

主要是通过在线强化学习（RL）训练GRM，使其能动态生成高质量的原则（principles）和批判（critiques），从而提升奖励质量。

整体来看，SPCT是一个两阶段的过程，它们分别是：

拒绝式微调（Rejective Fine-Tuning）：冷启动阶段，通过采样和拒绝策略生成初始数据。
基于规则的在线RL：使用规则化奖励函数优化原则和批判的生成，鼓励模型区分最佳响应。

在此基础上，便是第三个技术点，即推理时扩展技术。

先是通过多次采样生成多样化的原则和批判，投票聚合最终奖励，扩展奖励空间。

再训练一个辅助模型过滤低质量采样，进一步提升扩展效果。

基于上述的方法，团队也对结果做了一波测试。

在Reward Bench、PPE、RMB等基准上，DeepSeek-GRM-27B显著优于基线方法（如LLM-as-a-Judge、标量RM），且通过推理时扩展（32次采样）性能进一步提升（如Reward Bench准确率从86.0%提升至90.4%）。

总而言之，这篇研究证明了推理时扩展在通用RM中的有效性，性能超越训练时扩展。

One More Thing

奥特曼发布“变卦”消息之外，还不忘给自己带一波货，称有两本他亲自参与的书即将发布：

一本是Keach Hagey写的关于奥特曼本人的书
一本是Ashlee Vance写的关于OpenAI的书

论文地址：https://arxiv.org/abs/2504.02495

本科生推翻姚期智40年前的猜想，哈希表的平均查询时间竟与填满程度无关

1985 年，著名计算机科学家、图灵奖得主姚期智提出了一个与哈希表有关的猜想。现在，40 年过去了，一名本科生却成功推翻了这个猜想。而这项成就却源自一个始于 2021 年秋的故事。

2/11/2025 11:17:30 AM

机器之心

如何训练最强代码大模型？北大aiXcoder-7B贡献前沿实践

本文的通讯作者是北京大学计算机学院长聘教授李戈。本文一作是 aiXcoder 蒋思源和北大李戈教授课题组博士生李佳，团队重点关注融合深度学习与软件工程的代码建模方法。如何训练一个代码大模型？

2/12/2025 1:34:40 PM

机器之心

预测热门歌曲成功率 97%？这份清单前来「打假」

单看数据结果是不够的，要仔细判断这些数据的可靠性。

8/21/2023 3:24:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

DeepSeek新论文

One More Thing

相关资讯

本科生推翻姚期智40年前的猜想，哈希表的平均查询时间竟与填满程度无关

如何训练最强代码大模型？北大aiXcoder-7B贡献前沿实践

预测热门歌曲成功率 97%？这份清单前来「打假」