MCTSr

大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

通过算法层面的创新,未来大语言模型做数学题的水平会不断地提高。这几天,17 岁中专生姜萍在 2024 阿里巴巴全球数学竞赛预选赛中取得全球第 12 名的新闻刷了屏。而同时,AI 挑战赛的成绩显示,在所有 563 支 AI 参赛队伍中,最高分 34 分,平均分 18 分,赶上了人类选手平均水平。AI 参与数学竞赛的主要短板是逻辑推理能力弱,证明题很难拿到完整得分点。这也是 GPT-4、LLaMA 等当前大语言模型(LLM)在需要策略和逻辑推理的任务中面临的重大挑战。其中的一大障碍是输出的准确性和可信度,尤其是在需要保
  • 1