AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
本文将介绍首个关于长推理模型 “思考不足” 现象的工作。该工作由腾讯 AI Lab 与苏州大学、上海交通大学团队共同完成。本文的通讯作者为涂兆鹏,腾讯专家研究员,研究方向为深度学习和大模型,在国际顶级期刊和会议上发表学术论文一百余篇,引用超过 9000 次。担任 SCI 期刊 NeuroComputing 副主编,多次担任 ACL、EMNLP、ICLR 等国际顶级会议领域主席。第一作者为苏州大学博士生王越,腾讯 AI Lab 高级研究员刘秋志、徐嘉豪、梁添,以及上海交通大学博士生陈星宇、何志威。
论文题目:Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
论文地址:https://arxiv.org/pdf/2501.18585
背景与动机
长推理模型(Long Reasoning Models),如 OpenAI o1 [1]、QwQ-32B-Preview [2]、 DeepSeek-R1-671B [3] 和 Kimi K1.5 [4] 等,因其展现出类似人类的深度思考能力而备受关注。这些模型通过长时间推理(Inference-Time Scaling),能够在解码阶段不断思考并尝试新的思路来优化自身的答案质量。然而,长推理模型在推理过程中所有的思考是否高效,这一问题仍未得到充分探索。
此前,腾讯 AI Lab 的研究团队发现,长推理模型在面对简单问题时,其思考行为会出现大量重复,从而浪费大量计算资源 [5](o1 也会「想太多」?腾讯 AI Lab 与上海交大揭秘 o1 模型过度思考问题)。而在面对难题时,长推理模型的思考模式是否高效依然是一个疑问。基于此,该研究团队进一步深入研究,试图揭示长推理模型在复杂问题上的表现及其潜在问题。
思考不足是长推理模型的 “注意力缺陷多动障碍”
研究团队的最新研究显示,长推理模型在推理过程中往往频繁地进行思路跳转,无法将注意力集中在一个正确的思路上并深入思考,从而得到正确答案。研究团队首先将 “思路(thought)” 定义为模型在推理策略中产生的中间认知步骤。长推理模型常常通过使用 “alternatively” 等术语来切换推理思路。例如,在下图所示的例子中,模型可能会从代数操作转向几何解释,再到优化策略。这种思路切换使得长推理模型能够更广泛地探索潜在的解决方案,展示了其在解决复杂问题时的灵活性。
研究人员统计了在 MATH500 测试集的不同难度级别下,生成回答时的平均思路和 token 数量:
显然,随着难度增加,所有模型产生的推理思路也有所增多,并且这一趋势与生成 token 数量的增长一致。这表明,随着问题复杂性的增加,模型更倾向于频繁切换思路,从而能够动态调整推理过程,以应对更具挑战性的问题。
那么,长推理模型是否会在思路切换的过程中提升其准确率呢?围绕这一问题,研究团队在 AIME24、Math500-Hard 和 GPQA Diamond 等测试集上,对正确回答和错误回答的平均思路数量以及 token 数量进行了深入分析,结果如下图所示:
相较于正确答案,长推理模型在错误回答中往往会出现更多的推理思路切换。这导致了回答长度显著增长,但准确性却未能相应提升。平均而言,长推理模型在 AIME24 上的错误回答中因频繁思路切换,生成的 token 数量比正确回答多出 225%,思路数量增加了 418%。相比之下,传统的 LLM(如 Qwen-Math-72B 和 Llama3.3-79B)在正确与错误回答之间的回答长度没有显著差异。
这一趋势表明,尽管模型被设计为动态调整其认知过程来解决问题,但更频繁的思路切换并不一定能提升准确性。换句话说,在处理难题时,长推理模型也存在 “注意力缺陷多动障碍” 的问题。研究团队将这种现象命名为 “思考不足”(Underthinking),即长推理模型在推理过程中频繁地进行思路跳转,无法将注意力集中在一个正确的思路上并深入思考,从而得到正确答案。实际上,模型可能在消耗额外计算资源(通过增加生成的 token 体现)时,未能提供更精确的解决方案。这些发现表明,在面对复杂问题时,除了探索额外的认知途径外,更需要以更有针对性和高效的方式进行操作,才能在推理复杂的问题时提升准确性。
量化 “思考不足”
研究团队认为,频繁切换思路而得出错误答案的行为,可能源于以下两个原因:一是真正的思考不足,即模型虽然找到了一条有希望的思路,但未能持续深入地坚持下去;二是对问题缺乏深入理解,从而盲目探索各种无效的方法。
为了进一步厘清这些可能性,研究团队提出了一个评估框架,用于评估一条被放弃的推理路径是否足以得出正确的答案。通过关注模型是否能够持续遵循和深化一条 “看起来有希望的思路”,可以识别思考不足的情况。具体而言,研究团队使用 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B 来判断一个思路是否能得到正确答案。
为了验证模型回答中的初步想法是否正确,下图展示了在错误回答中不同位置思路的正确比例。
结果显示,在各种模型的初步想法中,相当一部分的解题思路是正确的,但遗憾的是,模型并没有深入思考这些解题思路,而是过早地放弃了。这一现象表明,模型需要增强持续深入且准确地探索特定推理路径的能力,而不是轻易转向其他思路。
此外,研究团队还分析了不同模型的错误回答中正确思路比例的分布情况,如下图所示:
观察发现,超过 70% 的错误回答中至少包含一个正确的思路。此外,在这些回答中,有超过 50% 的回答其正确思路的比例达到 10% 以上。这表明,虽然长推理模型能够成功找到正确的推理思路,但它们往往难以沿着这些路径持续深入,进而得出正确的结论。这一现象凸显了鼓励模型保持并拓展其最初正确思路的重要性,以便将这些正确思路整合为准确的最终答案。
基于上述观察结果,研究团队提出了第一个针对长推理模型思考不足的指标(Underthinking Score),表示为。该指标的计算公式为:
其中,N 是测试集中的错题数量,是第 i 个错题的回答 token 数量,
是从该回答开始到第一个正确想法为止的 token 数量(包括第一个正确想法)。如果第 i 个回答中没有正确的思路,则
,表示模型对该问题缺乏理解,因此无法认为是 “思考不足”。直观地说,如果一个模型在回答过程中最初产生了正确的思路,但随后转向其他思路并最终未能得出正确答案,那么此后生成的 token 对于最终达到正确答案并无实质性贡献。这种情况下,由于缺乏足够的思考深度,模型的推理过程被认为是低效的。具体而言,
值低表示更高的推理效率,这意味着在错误回答中,有更大比例的 token 能够为正确思路的形成提供支持;
值高表示较低的推理效率,意味着有更大比例的 token 未能有效助力于正确思路的生成,即模型可能因频繁切换思路而生成大量冗余或不相关的 token。
借助这一指标,研究人员能够定量地评估模型在错误回答中的推理效率。下表展示了不同模型的准确率(越高性能越强)和思考不足得分(越小越能充分思考):
结果表明,单纯增大模型尺寸并不能避免思考不足,模型准确率的提升也不一定会减少该现象。由此可见,我们需要深入探索思考不足这一复杂现象,从而在训练模型的过程中,不仅使其能够给出正确的答案,还能具备高效的推理能力。
缓解思考不足:引入思路转换惩罚
为了缓解长推理模型的思考不足现象,研究团队提出了一种惩罚思路转换的解码策略,称为 “Thought Switching Penalty”(TIP)。该策略通过在生成过程中对思路切换施加惩罚,鼓励模型在深入探索每个推理路径后再考虑其他替代方案。
在标准的解码过程中,在位置 t 生成 token v 的概率是通过对输出层的 logits 使用 softmax 函数计算的:
其中 是位置 t 关于 token v 的 logit(未归一化的分数)。为了鼓励模型在切换思路之前更深入地探索当前思路,研究团队引入了一个对与思路转换相关的表达惩罚。具体而言,设
是与思路切换相关的词汇集合(例如,“alternatively”),作者们修改了 logits 如下:
其中:(惩罚强度)是一个控制对思路切换标记施加惩罚强度的参数。较大的
会导致这些词语的 logits 减少更多,使它们被选中的可能性降低;
(惩罚持续时间)指定了从思路开始位置
起的惩罚生效的位置数。较大的
会延长惩罚的范围,进一步阻止过早的思路切换;当
时,惩罚被禁用,解码过程退化为标准解码算法。
调整后的 logits减少了在指定窗口内生成思路切换标记的概率,从而鼓励模型在继续扩展当前思路之前不进行切换。新的概率分布变为:
TIP 策略通过惩罚机制抑制模型生成思路转换相关的词语,从而鼓励模型在生成文本时保持其原始的推理路径,并进行更深入的思考,避免频繁的策略切换和表面化的推理模式。下图展示了 QwQ-32B-Preview 在加入了 TIP 策略之后的结果:
结果显示,通过引入 TIP 策略,即使不进行模型微调也能在 MATH500-Hard、GPQA Diamond 和 AIME2024 上获得准确率提升并减少思考不足。
总结
腾讯 AI Lab 与苏州大学、上海交通大学联合团队最新发现,长推理模型也存在思考不足问题。具体体现为长推理模型在推理过程中频繁地进行思路跳转,无法将注意力集中在一个正确的思路上并深入思考,从而得到正确答案。研究团队将这种现象命名为 “思考不足”(Underthinking)。
研究团队首先观察到长推理模型频繁切换思路的现象,并进一步发现这一现象由思考不足导致。为了定量评估思路切换的问题,研究团队引入了一种新颖的思考不足指标,为推理效率低下提供了量化评估框架。同时,研究团队提出了一种缓解思考不足的简单有效方案 —— 带有思路切换惩罚(Thought Switching Penalty,TIP)的解码方法。该方法鼓励模型在考虑替代方案之前,彻底探索每一条推理思路,从而无需额外的微调就能提高模型的准确性。
这项研究不仅揭示了长推理模型在推理过程中的不足之处,还提供了一种实用的解决方案,有助于显著提升模型在处理复杂问题时的表现。展望未来,研究者将继续探索模型中的自适应机制,以实现对思路转变的自我调节,进一步提高长推理模型的推理效率。
参考文献
[1] OpenAI. Learning to reason with llms. https://openai.com/index/learning-to-reason-with-llms, 2024.
[2] Qwen. Qwq: Reflect deeply on the boundaries of the unknown, November 2024. URL https: //qwenlm.github.io/blog/qwq-32b-preview/.
[3] DeepSeek. Deepseek-r1-lite-preview: Unleashing supercharged reasoning power. https://api-docs.deepseek.com/news/news1120, 2024. Accessed: 2024-12-29.
[4] DeepSeek. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. 2025. URL https://api.semanticscholar.org/CorpusID:275789950.
[5] Xingyu Chen, Jiahao Xu, Tian Liang, Zhiwei He, Jianhui Pang, Dian Yu, Linfeng Song, Qiuzhi Liu, Mengfei Zhou, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, and Dong Yu. Do not think that much for 2+3=? on the overthinking of o1-like llms, 2024. URL https://arxiv.org/abs/2412.21187.