新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向，最短答案往往就是对的

作者：远洋

2025-02-03 02:30

最新研究揭示：在遇到高难度问题时，推理大模型可能像“三心二意的学生”一样频繁切换解题思路，却因缺乏深入探索而失败 —— 这种现象被研究者称为 Underthinking（欠思考）。

DeepSeek 和 o1 / o3 一类推理大模型持续带来震撼之际，有人开始研究他们的弱点了。

最新研究揭示：在遇到高难度问题时，推理大模型可能像“三心二意的学生”一样频繁切换解题思路，却因缺乏深入探索而失败 —— 这种现象被研究者称为 Underthinking（欠思考）。

新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向，最短答案往往就是对的

研究团队来自腾讯 AI 实验室、苏州大学和上海交通大学，主要研究对象是开源的 DeepSeek-R1 和 Qwen QwQ 系列模型。

新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向，最短答案往往就是对的

通过分析 AI 的错误答案，他们发现当前的推理大模型经常在思考早期就走上了正确的路线，但倾向于“浅尝辄止”，很快开始探索别的思路，导致后续生成的数千个 tokens 对解题毫无贡献。

这种“无效努力”不仅浪费计算资源，还显著降低了答案的正确率。

“三心二意”是罪魁祸首

这一现象在解决数学竞赛题等更为复杂任务时尤为明显。

为了系统分析，团队在三个具有挑战性的测试集 MATH500、GPQA Diamond 和 AIME2024 上，对类 o1 模型 QwQ-32B-Preview、DeepSeek-R1-671B 等进行了实验。

下图比较了正确和错误回答中的 token 使用量和思维切换次数。平均来看，类 o1 模型在错误回答中比正确回答多消耗了 225% 的 token，原因是思维切换频率增加了 418%。

新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向，最短答案往往就是对的

为了深入分析这一现象，研究团队开发了一套评估框架，用于判断被放弃的推理路径是否实际上足以推导出正确答案。

结果观察到，许多模型在回答开头阶段的思路是正确的，但并未继续深入完成推理。

新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向，最短答案往往就是对的

超过 70% 的错误回答中至少包含一个正确的思路。此外，在超过 50% 的错误回答中，有 10% 以上的思路是正确的。

新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向，最短答案往往就是对的

如下图所示的例子，例如，Thought 1 通过识别给定方程类似于以 (0,0) 和 (20,11) 为中心的椭圆方程，启动了正确的解释。将两个表达式设为相等，是寻找满足这两个方程的公共点 (x, y) 的有效方法。

然而，模型并未专注于深入探索这一合理思路，使用进一步的代数操作和优化技术进行分析，而是频繁切换思路，额外消耗了约 7270 个 token，却依然未能得出正确答案。

最终，它得出一个缺乏扩展 COT 过程支持的猜测答案。

新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向，最短答案往往就是对的

基于这些观察，研究人员提出了一个用于量化 Underthinking 程度的指标（Underthinking Metric）。

新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向，最短答案往往就是对的

这个指标通过测量错误答案中的 token 使用效率来评估推理效率，计算从回答开始到第一个正确思路出现所需的 token 数量与总 token 数量的比值。

实验结果表明，所有测试的类 o1 模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。

在 MATH500-Hard 和 GPQA Diamond 数据集上，性能更优的 DeepSeek-R1-671B 模型在取得更高准确率的同时，其 UT 得分也更高，表明错误回答中存在更多思维不足。

这意味着，尽管模型整体能力更强，但在不确定时可能生成更长但效率较低的推理过程，可能是因为模型探索了多个错误的推理路径，却未能有效收敛到正确解答。

相反，在 AIME2024 测试集中，DeepSeek-R1-671B 模型不仅取得了更高的准确率，还表现出较低的 UT 得分，反映出较少的思维不足和更高的 token 效率。

这表明模型在该任务中，即使未得出正确答案，其推理过程依然保持专注和高效，团队表示这可能是因为模型与 AIME2024 所要求的问题类型和推理过程更好地对齐。

新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向，最短答案往往就是对的

理解思维不足现象对于开发能够提供正确答案并具备有效推理过程的模型至关重要。

如何让 AI 学会“一心一意”

如何让模型像优秀学生一样“沉下心来钻研”？

研究者借鉴了人类考试策略，提出了一种“思路切换惩罚机制” （Thought Switching Penalty，TIP）。其原理类似于考试时给自己定规矩：“先专注当前方法，至少尝试 10 分钟再换思路”。

技术细节上，TIP 会对触发思路切换的关键词施加惩罚，降低这些词在解码过程中的生成概率，迫使模型在当前路径上探索更久。

例如，当模型开始写“Alternatively, we can consider…”时，TIP 会通过调整参数（惩罚强度 α 和持续时间 β），抑制这种过早的切换倾向。

新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向，最短答案往往就是对的

实验结果显示，加入 TIP 能让模型在数学测试上的准确率上升，同时 UT Score 下降，说明既减少了无效切换，又提高了答案质量。

例如在 AIME2024 数学竞赛测试上，加入 TIP 的 QwQ-32B-Preview 模型准确率从 41.7% 提升至 45.8%，同时 UT Score 从 72.4 降至 68.2。

新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向，最短答案往往就是对的

并且这种“无痛升级”无需重新训练模型，仅需调整解码策略，展现了其实用价值。

One More Thing

UC Berkeley 教授 Alex Dimakis 几乎同时分享了类似的观察，

对于 DeepSeek-R1 和所有推理模型，错误的答案更长，而正确的答案要短得多。

基于此，他们提出一个简单的解决办法，称为“简洁解码” （Laconic decoding）。

并行运行 5 次模型，从答案中选择 tokens 最少的。

初步实验结果表示，简洁解码在 AIME2024 测试上能提高 6%-7% 的准确率，比 Consensus Decoding 更好也更快。

新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向，最短答案往往就是对的

论文地址：https://arxiv.org/ abs / 2501.18585

参考链接：

[1]https://x.com/tuzhaopeng/status/1885179412163027406
[2]https://x.com/AlexGDimakis/status/1885447830120362099

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨西风

OpenAI首席研究官：DeepSeek独立发现了o1的一些核心思路，奥特曼、LeCun纷纷置评

成本打下来了，需求更多才对？春节这几天，国内外 AI 圈都被 DeepSeek 刷了屏。英伟达的股市震荡更是让全世界看得目瞪口呆（参见《英伟达市值蒸发近 6000 亿美元，而 DeepSeek 刚刚又开源新模型》）。

1/29/2025 6:43:00 PM

机器之心

“新神登场”，消息称 DeepSeek R2 模型有望 5 月前发布

据路透社报道，三位知情人士透露，DeepSeek 正在加速推出其 R2 人工智能模型，该公司最初计划在五月推出，但目前正在努力尽快推出。

2/25/2025 8:18:29 PM

归泷（实习）

DeepSeek-R1详细解读！

DeepSeek-R1爆火，今天来详细看下。论文地址：：：：现有LLMs在推理任务上的改进主要依赖监督微调（SFT）和后训练（Post-Training）方法，但这些方法需要大量人工标注数据且成本高昂。 OpenAI的o1系列模型虽通过扩展推理链（Chain-of-Thought, CoT）提升了性能，但其测试时扩展仍存在挑战。

2/19/2025 8:00:00 AM

GoldMa

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向，最短答案往往就是对的

“三心二意”是罪魁祸首

如何让 AI 学会“一心一意”

One More Thing

相关资讯

OpenAI首席研究官：DeepSeek独立发现了o1的一些核心思路，奥特曼、LeCun纷纷置评

“新神登场”，消息称 DeepSeek R2 模型有望 5 月前发布

DeepSeek-R1详细解读！