简单示例提升DeepSeek-R1美国数学邀请赛AIME分数:以步骤为粒度对齐上下文学习与推理

仅需简单提示,满血版DeepSeek-R1美国数学邀请赛AIME分数再提高。 上海交大、港中文、上海AI实验室等带来最新成果BoostStep对齐推理和上下文学习粒度,大幅提升上下文学习性能,突破少样本学习上限。 图片大语言模型使用多步推理解决复杂数学问题,即先将复杂问题分解为多个步骤并逐步进行推理。

仅需简单提示,满血版DeepSeek-R1美国数学邀请赛AIME分数再提高。

上海交大、港中文、上海AI实验室等带来最新成果BoostStep对齐推理和上下文学习粒度,大幅提升上下文学习性能,突破少样本学习上限。

图片图片

大语言模型使用多步推理解决复杂数学问题,即先将复杂问题分解为多个步骤并逐步进行推理。

研究人员实验发现后者是推理效果的瓶颈:大模型虽能进行有效的问题拆解,但在单步推理时往往出现错误。

上下文学习则通过引入相似例子为大语言模型提供完整思路与单步推理的指导,而传统的上下文学习在步骤粒度没有与推理进行对齐,在辅助关键的单步推理时仍有显著缺陷。

具体而言,传统的少样本学习往往以题目为粒度进行检索与指导,因此会缺乏解决关键推理步骤所需的示例。此外,无关的步骤甚至还对推理有负面影响。

为此,来自上海交通大学,香港中文大学和上海人工智能实验室的研究人员提出BoostStep策略,以步骤为粒度对上下文检索和推理的粒度进行了对齐,通过“首次尝试”策略为每个推理步骤提供高度相关的ICL示例。

BoostStep提供了更细粒度的指导,避免无关信息干扰,在不同数学测试集上为GPT-4o带来4.6%的提升,大幅超过传统少样本学习的1.2%。

此外,BoostStep具有传统少样本学习不具备的“简单指导困难”的潜力,仅用MATH数据集简单示例就能帮助Deepseek-R1-671B模型在美国数学邀请赛(AIME)上获得2.2%的提升。

△图1:BoostStep效果与应用场景总览△图1:BoostStep效果与应用场景总览

动机:传统的少样本学习无法有效提升单步推理能力

上下文学习是提升模型数学推理能力常用的策略。

具体而言,引入相似的例题有两种指导效果,其一是可以给模型提供大致的推理思路,其二是在具体单步推理时提供指引,这也对应模型在解决复杂问题时采用的多步分解,逐一推理策略。

研究人员实验发现后者是制约当前模型推理的关键:给GPT-4o-mini提供标准解答过程,让其判断另一段错误的解答过程是由于总体推理思路出错还是具体单步推理有误。

针对较弱的模型(如LLama-3.1-8B),有91.3%的错误是由于单步推理,而到了更加先进的模型(如GPT-4o),这个数字提升到了99.2%这个夸张的比例,说明相较于问题分解,单步推理能力是目前大模型推理的短板。

然而,以题目为粒度的上下文学习很难在单步推理时的指导有限。由于传统的少样本学习是以整道题目为粒度进行检索和引导,无法在更细粒度的步骤层面确保例题和正在进行的推理依然具有强相关性,而这些无关的步骤甚至还会对推理产生负面作用。此外,例题是在推理开始前就提供给模型,因此缺乏在推理过程中的实时指导。

由此,研究人员提出BoostStep策略,将上下文学习中检索和指导的粒度由整道题目细化到每一个步骤,来确保提供的示例在步骤粒度仍然高度一致。

方法:通过“初次尝试”策略以步骤为粒度提供指导

想要实验步骤粒度的上下文学习,需要构建步骤粒度的题库,并设计出更加合适的检索策略,以下会对BoostStep的方法进行详细阐述。

步骤粒度题库的构建

目前的开源数学数据集往往只包含题目和其对应的完整解答过程,并没有细分到每一步。某些方法(如PRM800K)通过明确的语义分割,如句号、换行符等将一段完整的解答分割为不同的步骤。这种策略简洁有效,然而,其并不符合步骤的本质。步骤之所以成为推理的原子粒度,正是由于每一步只负责解决一个很小的目标,包含一个完整的思维过程。而通过语义分隔符会破坏这种原子性,如将一个完整的枚举过程拆成很多步。

由此,研究人员以推理内容本身为依据,通过提示词让GPT-4o进行步骤的分解,这种策略保证了分割好的步骤的粒度与未来进行的推理高度一致,从而能够给出全面而有效的指导。实验证明这种策略相较于语义分割策略有显著的优势,在AMC和MATH评测集上能获得约3.5%的提升。

“首次尝试”检索策略

上下文学习的核心在于检索到高度相关的例子,因而检索策略对上下文学习的效果至关重要。传统以题目为粒度的少样本学习通常是从题库中搜索与待测题目最为接近的题目,这种策略简洁有效,因为相似的题目往往包含相似的解答过程。

然而,到了更加细粒度的步骤粒度,情况则更加复杂。以上一步为检索根据会搜索到无关的步骤,这是由于步骤之间具有一定的独立性,相似的上一步完全可以用于得到截然不同的下一步。而根据之前所有步骤进行检索又会丧失对当下步骤的突出,无法检索到最合适的例子。

研究人员认为最准确的预估当下步骤的策略正是让模型尝试进行一次推理,并基于此提出了“首次尝试”的检索策略。

具体而言,在每一步进行推理时,模型首先进行一次零样本尝试,并根据该尝试从题库中检索得到最相似的步骤,在这一步的指导下完成最终的推理。

下图是一个BoostStep进行首次尝试、例题查找与再次推理的具体示例。在首次尝试时正切公式运用错误,但得以精确了解当前步骤的推理内容,从而检索到合适的例子,并在正式推理时正确应用正切公式。

图片图片

实验:BoostStep在性能、潜力、泛化等方面均大幅优于传统的少样本学习

3.1性能

BoostStep能够在推理中根据当前的step实时提供更加合适的步骤示例,因而能提供更加有效的引导。BoostStep在不同数学评测集上能够为GPT-4o和Qwen2.5-Math-72B带来4.6%与2.2%的进一步提升,远远超过传统题目粒度的少样本学习。

图片

△图3:在不同数学评测集与不同基模型上BoostStep的效果均优于传统少样本学习

3.2潜力

传统的少样本学习很难做到通过简单的示例提升困难问题上的推理性能,这限制了上下文学习的潜力。而BoostStep通过将引导细分到步骤层级突破了这层限制。借助MATH数据集中较为简单的示例,BoostStep能够帮助最强的推理模型Qwen-QwQ和DeepseekR1在最难的美国数学邀请赛(AIME)上分别获得平均3.4%和2.2%的提升。

图片图片

△图4:BoostStep能够利用简单示例提升强推理模型在高难度评测集上的推理性能

3.3 泛化性

传统的少样本学习需要提供的例子与待解决的问题高度相似,否则不仅无法提供有效的引导,甚至会对推理带来负面效果,这大大限制了上下文学习的泛化性。而由于不同的题目仍然可能包含高度相似的步骤,BoostStep可以有效降低对题目相似性的要求,从而大幅提升上下文学习的泛化性。研究人员以MATH中的题目为示例,尝试指导模型在多模态数学评测集MathVision和MathVerse上的推理。当例题与待解决问题不相似时,传统的少样本学习甚至不如直接推理,而BoostStep能够取得持续可观的提升。

图片图片

△图5BoostStep在与题库相似度较低的多模态数学评测集上能取得持续提升,具有更好的泛化性

3.4鲁棒性

为了测试不同方法的鲁棒性,研究人员在检索时通过手动选取第t像的例子来降低例题的相似度,模拟检索不匹配的情况。实验证明传统的少样本学习会在t=4时出现显著的性能下降,甚至低于直接推理,而BoostStep下降幅度较小,且持续优于零样本推理,敏感性较低。

图片图片

△图6:BoostStep对题库的相似度有较低的敏感性,从而具有更强的鲁棒性

扩展应用:与树搜索策略结合获取进一步提升

树搜索是数学推理中常用的策略,通常的策略包含两个阶段:在每步生成时生成多个候选节点,并通过过程监督模型进行筛选。而Booststep在以上两个阶段均可以通过引入相似的步骤样例提升单步推理生成与正确性判断的质量。

研究人员使用GPT-4o作为生成模型,GPT-4o-mini作为过程监督模型,并且采用逐对过程监督模型的设置,通过消融实验证明在推理和判断阶段引入步骤样例均能显著提升总体推理质量,带来8.5%的巨大提升。

图片图片

△图7:在树搜索的生成与判断是否引入过程示例的消融实验

结论

本文提出BoostStep算法,以步骤为粒度对齐推理与上下文学习,能够在推理过程中实时提供与当前步骤高度相关的示例提升推理质量,相较于传统少样本学习具有更强的表现、潜力、泛化性和鲁棒性,且可即插即用地应用于树搜索算法中提升生成和筛选的质量。

论文链接:https://arxiv.org/abs/2501.03226 

代码链接:https://github.com/beichenzbc/BoostStep 

相关资讯