新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败 —— 这种现象被研究者称为 Underthinking(欠思考)。

DeepSeek 和 o1 / o3 一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了

最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败 —— 这种现象被研究者称为 Underthinking(欠思考)。

新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

研究团队来自腾讯 AI 实验室、苏州大学和上海交通大学,主要研究对象是开源的 DeepSeek-R1 和 Qwen QwQ 系列模型。

新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

通过分析 AI 的错误答案,他们发现当前的推理大模型经常在思考早期就走上了正确的路线,但倾向于“浅尝辄止”,很快开始探索别的思路,导致后续生成的数千个 tokens 对解题毫无贡献。

这种“无效努力”不仅浪费计算资源,还显著降低了答案的正确率。

“三心二意”是罪魁祸首

这一现象在解决数学竞赛题等更为复杂任务时尤为明显。

为了系统分析,团队在三个具有挑战性的测试集 MATH500、GPQA Diamond 和 AIME2024 上,对类 o1 模型 QwQ-32B-Preview、DeepSeek-R1-671B 等进行了实验。

下图比较了正确和错误回答中的 token 使用量和思维切换次数。平均来看,类 o1 模型在错误回答中比正确回答多消耗了 225% 的 token,原因是思维切换频率增加了 418%。

新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

为了深入分析这一现象,研究团队开发了一套评估框架,用于判断被放弃的推理路径是否实际上足以推导出正确答案。

结果观察到,许多模型在回答开头阶段的思路是正确的,但并未继续深入完成推理。

新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

超过 70% 的错误回答中至少包含一个正确的思路。此外,在超过 50% 的错误回答中,有 10% 以上的思路是正确的。

新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

如下图所示的例子,例如,Thought 1 通过识别给定方程类似于以 (0,0) 和 (20,11) 为中心的椭圆方程,启动了正确的解释。将两个表达式设为相等,是寻找满足这两个方程的公共点 (x, y) 的有效方法。

然而,模型并未专注于深入探索这一合理思路,使用进一步的代数操作和优化技术进行分析,而是频繁切换思路,额外消耗了约 7270 个 token,却依然未能得出正确答案。

最终,它得出一个缺乏扩展 COT 过程支持的猜测答案。

新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

基于这些观察,研究人员提出了一个用于量化 Underthinking 程度的指标(Underthinking Metric)。

新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

这个指标通过测量错误答案中的 token 使用效率来评估推理效率,计算从回答开始到第一个正确思路出现所需的 token 数量与总 token 数量的比值。

实验结果表明,所有测试的类 o1 模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。

在 MATH500-Hard 和 GPQA Diamond 数据集上,性能更优的 DeepSeek-R1-671B 模型在取得更高准确率的同时,其 UT 得分也更高,表明错误回答中存在更多思维不足。

这意味着,尽管模型整体能力更强,但在不确定时可能生成更长但效率较低的推理过程,可能是因为模型探索了多个错误的推理路径,却未能有效收敛到正确解答。

相反,在 AIME2024 测试集中,DeepSeek-R1-671B 模型不仅取得了更高的准确率,还表现出较低的 UT 得分,反映出较少的思维不足和更高的 token 效率。

这表明模型在该任务中,即使未得出正确答案,其推理过程依然保持专注和高效,团队表示这可能是因为模型与 AIME2024 所要求的问题类型和推理过程更好地对齐。

新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

理解思维不足现象对于开发能够提供正确答案并具备有效推理过程的模型至关重要。

如何让 AI 学会“一心一意”

如何让模型像优秀学生一样“沉下心来钻研”?

研究者借鉴了人类考试策略,提出了一种“思路切换惩罚机制” (Thought Switching Penalty,TIP)。其原理类似于考试时给自己定规矩:“先专注当前方法,至少尝试 10 分钟再换思路”。

技术细节上,TIP 会对触发思路切换的关键词施加惩罚,降低这些词在解码过程中的生成概率,迫使模型在当前路径上探索更久。

例如,当模型开始写“Alternatively, we can consider…”时,TIP 会通过调整参数(惩罚强度 α 和持续时间 β),抑制这种过早的切换倾向。

新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

实验结果显示,加入 TIP 能让模型在数学测试上的准确率上升,同时 UT Score 下降,说明既减少了无效切换,又提高了答案质量。

例如在 AIME2024 数学竞赛测试上,加入 TIP 的 QwQ-32B-Preview 模型准确率从 41.7% 提升至 45.8%,同时 UT Score 从 72.4 降至 68.2。

新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

并且这种“无痛升级”无需重新训练模型,仅需调整解码策略,展现了其实用价值。

One More Thing

UC Berkeley 教授 Alex Dimakis 几乎同时分享了类似的观察,

对于 DeepSeek-R1 和所有推理模型,错误的答案更长,而正确的答案要短得多。

基于此,他们提出一个简单的解决办法,称为“简洁解码” (Laconic decoding)。

并行运行 5 次模型,从答案中选择 tokens 最少的。

初步实验结果表示,简洁解码在 AIME2024 测试上能提高 6%-7% 的准确率,比 Consensus Decoding 更好也更快。

新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

论文地址:https://arxiv.org/ abs / 2501.18585

参考链接:

  • [1]https://x.com/tuzhaopeng/status/1885179412163027406

  • [2]https://x.com/AlexGDimakis/status/1885447830120362099

本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨西风

相关资讯

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

成本打下来了,需求更多才对? 春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。 英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。

一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo

开源大模型领域,又迎来一位强有力的竞争者。近日,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE) 语言模型 DeepSeek-V2,主打训练成本更低、推理更加高效。项目地址::DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language ModelDeepSeek-V2 参数量达 236B,其中每个 token 激活 21B 参数,支持 128K token 的上下文长度。与

DeepSeek开源数学大模型,高中、大学定理证明新SOTA

DeepSeek-Prover-V1.5 通过结合强化学习和蒙特卡洛树搜索,显著提升了证明生成的效率和准确性。AI 技术与数学发现的进展,正前所未有地交织在一起。前段时间,著名数学家陶哲轩在牛津数学公开讲座中做了主题为「AI 在科学和数学中的潜力」的主题分享。他指出,将 AI 整合到数学领域将使形式化证明的编写速度超过人类证明(人类证明容易出错)。这将成为一个关键转折点,意味着形式化证明的使用将不仅限于验证现有的证明,还将用于创造新的数学知识。这将通过广泛的人类数学家与 AI 数学家之间的协作来实现。我们将迎来一个