Self-play muTuAl Reasoning

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调

互相检查，让小模型也能解决大问题。众所周知，LLM 很强大，但执行复杂推理的能力还不够强。举个例子，在 GSM8K 数据集上，Mistral-7B 即使使用思维链（CoT）等技术，也只能达到 36.5% 的准确度。尽管微调确实也能有效地提升推理能力，但大多数 LLM 依靠的微调数据都是经过 GPT-4 等更强大模型蒸馏过的，甚至可能原本就是这些强大模型合成的。同时，研究者们也在积极开发一种能提供辅助但也更困难的方法：使用一个更优的教师 LLM 来提升推理能力。为了在没有更优模型的前提下提升推理能力，一种颇有希望的范