等不来OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本论文作者来自华为蒙特利尔诺亚方舟实验室的康计堃，李信择，陈熙， Amirreza Kazemi，陈博兴。人工智能（AI）在过去十年里取得了长足进步，特别是在自然语言处理和计算机视觉领域。

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

本论文作者来自华为蒙特利尔诺亚方舟实验室的康计堃，李信择，陈熙， Amirreza Kazemi，陈博兴。

人工智能（AI）在过去十年里取得了长足进步，特别是在自然语言处理和计算机视觉领域。然而，如何提升 AI 的认知才智和推理才智，仍然是一个巨大的挑战。

近期，一篇题为《MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time》的论文提出了基于树搜刮的推理时间才智提升办法 MindStar [1]，该办法在开源模型 Llama-13-B 与 Mistral-7B 上达到了近似闭源大模型 GPT-3.5 与 Grok-1 在数学问题上的推理才智。

等不来OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了

论文标题：MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time

论文地址：https://arxiv.org/abs/2405.16265v2

MindStar 在数学问题上的应用效果：

等不来OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了

图 1 ：不同大型语言模型的数学准确率。LLaMA-2-13B 在数学性能上与 GPT-3.5 (4-shot) 类似，但节省了大约 200 倍的计算资源。

1. 引言

随着模型规模的快速增长，基于 Transformer 的大型语言模型（LLMs）在指令遵循 [1,2]、编码辅助 [3,4] 和创意写作 [5] 等领域展示了令人印象深刻的成果。然而，解锁 LLMs 解决复杂推理任务的才智仍然是一大挑战。最近的一些研究 [6,7] 尝试通过监督微调（Supervised Fine-Tuning, SFT）来解决，通过将新的推理数据样本与原始数据集混合，使 LLMs 学习这些样本的底层分布，并尝试模仿所学逻辑来解决未见过的推理任务。尽管这种办法有性能提升，但它严重依赖于大量的训练和额外的数据准备 [8,9]。

Llama-3 报告 [10] 强调了一个重要的观察：当面对一个具有挑战性的推理问题时，模型有时会生成错误的推理轨迹。这表明模型知道如何产生错误答案，但在采用上存在困难。基于这一发现，我们提出了一个简单的问题：我们能否通过帮助 LLMs 采用错误的输出来巩固它们的推理才智？为探索这一点，我们进行了一项实验，利用不同的处分模型进行 LLMs 输出采用。实验结果表明，步调级采用显著优于传统的 CoT 办法。

2. MindStar 办法

等不来OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了

图 2 MindStar 的算法架构图

我们引入了一种新的推理搜刮框架 ——MindStar（M*），通过将推理任务视为搜刮问题，并利用过程监督的处分模型（Process-supervised Reward Model, PRM），M * 在推理树空间中有效导航，识别近似最优门路。结合束搜刮（Beam Search, BS）和 Levin 树搜刮（Levin Tree Search, LevinTS）的思想，进一步巩固了搜刮效率，并保证在有限计算复杂度内找到最佳推理门路。

2.1 过程监督处分模型

过程监督处分模型 (PRM) 的设计目的是评价大语言模型 (LLM) 生成的中间步调，以帮助采用错误的推理门路。这种办法借鉴了其他应用中 PRM 的成功经验。具体而言，PRM 以当前推理门路等不来OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了和潜在的下一步作为输入，并返回处分值。

PRM 通过考虑整个当前推理轨迹来评价新步调，鼓励与整体门路的一致性和忠实性。高处分值表明，新的步调等不来OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了）对于给定的推理门路可能是错误的，从而使扩大门路值得进一步探索。相反，低处分值则表示新步调可能不错误，这意味着遵循此门路的解决方案也可能不错误。

M* 算法包含两个主要步调，迭代直到找到错误的解决方案：

1. 推理门路扩大：在每次迭代中，基础 LLM 生成当前推理门路的下一步。

2. 评价和采用：使用 PRM 评价生成的步调，并根据这些评价采用下一次迭代的推理门路。

2.2 推理门路扩大

等不来OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了

在采用要扩大的推理门路等不来OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了后，我们设计了一个提示模板（Example 3.1），以从 LLM 中收集下一步。正如示例所示，LLM 将原始问题作为 {question}，将当前推理门路作为 {answer}。注意，在算法的第一次迭代中，所采用的节点是仅包含问题的根节点，因此 {answer} 为空。对于推理门路等不来OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了，LLM 生成 N 个中间步调，并将它们作为当前节点的子节点附加。在算法的下一步中，将评价这些新生成的子节点，并采用一个新的节点进行进一步扩大。我们还意识到，生成步调的另一种办法是使用步调标记对 LLM 进行微调。然而，这可能会降低 LLM 的推理才智，更重要的是，这与本文的重点 —— 在不修改权重的情况下巩固 LLM 推理才智相悖。

2.3 推理门路采用

在扩大推理树后，我们使用预训练的过程监督处分模型（PRM）来评价每个新生成的步调。正如前面提到的，PRM 采用门路和步调，并返回相应的处分值。在评价之后，我们需要一种树搜刮算法来采用下一个要扩大的节点。我们的框架不依赖于特定的搜刮算法，在这项工作中，我们实例化了两种最佳优先搜刮办法，即 Beam Search 和 Levin Tree Search。

3. 结果与讨论

在 GSM8K 和 MATH 数据集上的广泛评价显示，M * 显著提升了开源模型（如 LLaMA-2）的推理才智，其表现可与更大规模的闭源模型（如 GPT-3.5 和 Grok-1）媲美，同时大幅减少了模型规模和计算成本。这些发现突显了将计算资源从微调转移到推理时间搜刮的潜力，为未来高效推理巩固技术的研究开辟了新途径。

等不来OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了

表 1 展示了各种方案在 GSM8K 和 MATH 推理基准上的对比结果。每个条目的数字表示问题解决的百分比。符号 SC@32 表示在 32 个候选结果中的自一致性，而 n-shot 表示少样本例子的结果。CoT-SC@16 指的是在 16 个思维链（CoT）候选结果中的自一致性。BS@16 代表束搜刮办法，即在每个步调级别涉及 16 个候选结果，而 LevinTS@16 详细说明了使用相同数量候选结果的 Levin 树搜刮办法。值得注意的是，MATH 数据集上 GPT-4 的最新结果为 GPT-4-turbo-0409，我们特别强调这一点，因为它代表了 GPT-4 家族中的最佳性能。

等不来OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了

图 3 我们研究了 M * 性能如何随着步调级别候选数量的变化而变化。我们采用 Llama-2-13B 作为基础模型，并分别采用束搜刮（BS）作为搜刮算法。

等不来OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了

图 4 Llama-2 和 Llama-3 模型家族在 MATH 数据集上的尺度定律。所有结果均来自它们的原始资源。我们使用 Scipy 工具和对数函数来计算拟合曲线。

等不来OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了

表 2 不同办法在回答问题时的平均 token 生产数量

4. 结论

本文介绍了 MindStar（M*），一种新颖的基于搜刮的推理框架，用于巩固预训练大型语言模型的推理才智。通过将推理任务视为搜刮问题并利用过程监督的处分模型，M* 在推理树空间中有效导航，识别近似最优门路。结合束搜刮和 Levin 树搜刮的思想，进一步巩固了搜刮效率，并保证在有限计算复杂度内找到最佳推理门路。广泛的实验结果表明，M* 显著提升了开源模型的推理才智，其表现可与更大规模的闭源模型媲美，同时大幅减少了模型规模和计算成本。

这些研究成果表明，将计算资源从微调转移到推理时间搜刮具有巨大的潜力，为未来高效推理巩固技术的研究开辟了新途径。

参考文献：

[1] Nisan Stiennon, Long Ouyang, Jeffrey Wu, Daniel Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul F Christiano. Learning to summarize with human feedback. Advances in Neural Information Processing Systems, 33:3008–3021, 2020.

[2] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744, 2022.

[3] Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, and Daxin Jiang. Wizardcoder: Empowering code large language models with evol-instruct. arXiv preprint arXiv:2306.08568, 2023.

[4] Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021.

[5] Carlos Gómez-Rodríguez and Paul Williams. A confederacy of models: A comprehensive evaluation of llms on creative writing. arXiv preprint arXiv:2310.08433, 2023.

[6] Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T Kwok, Zhenguo Li, Adrian Weller, and Weiyang Liu. Metamath: Bootstrap your own mathematical questions for large language models. arXiv preprint arXiv:2309.12284, 2023.

[7] Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, YK Li, Y Wu, and Daya Guo. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300, 2024.

[8] Keiran Paster, Marco Dos Santos, Zhangir Azerbayev, and Jimmy Ba. Openwebmath: An open dataset of high-quality mathematical web text. arXiv preprint arXiv:2310.06786, 2023.

[9] Peiyi Wang, Lei Li, Zhihong Shao, RX Xu, Damai Dai, Yifei Li, Deli Chen, Y Wu, and Zhifang Sui. Math-shepherd: Verify and reinforce llms step-by-step without human annotations. CoRR, abs/2312.08935, 2023.

[10] Meta AI. Introducing meta llama 3: The most capable openly available llm to date, April 2024. URL https://ai.meta.com/blog/meta-llama-3/. Accessed: 2024-04-30.