LLaMA-2-7B数学威力上限已达97.7%?Xwin-Math利用分解数据解锁后劲

分解数据持续解锁大模型的数学推理后劲!数学课题办理威力一直被视为衡量言语模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学课题上表现出色。近日,一项由 Swin-Transformer 团队打造,来自西安交通大学、中国科学技术大学、清华大学和微软亚洲钻研院的学者共同完成的钻研工作 Xwin 颠覆了这一认知,揭示了通用预训练下 7B(即 70 亿参数)规模的言语模型(LLaMA-2-7B)在数学课题办理方面已经展现出较强的后劲,并可使用基于分解数据的有监督微调办法促使模型愈发

分解数据持续解锁大模型的数学推理后劲!

数学课题办理威力一直被视为衡量言语模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学课题上表现出色。

近日,一项由 Swin-Transformer 团队打造,来自西安交通大学、中国科学技术大学、清华大学和微软亚洲钻研院的学者共同完成的钻研工作 Xwin 颠覆了这一认知,揭示了通用预训练下 7B(即 70 亿参数)规模的言语模型(LLaMA-2-7B)在数学课题办理方面已经展现出较强的后劲,并可使用基于分解数据的有监督微调办法促使模型愈发稳定地将数学威力激发出来。

这项钻研发布在 arXiv 上,题为《Common 7B Language Models Already Possess Strong Math Capabilities》。

LLaMA-2-7B数学威力上限已达97.7%?Xwin-Math利用分解数据解锁后劲

论文链接:https://arxiv.org/pdf/2403.04706.pdf

代码链接:https://github.com/Xwin-LM/Xwin-LM

钻研团队首先仅使用 7.5K 数据,对 LLaMA-2-7B 模型指令微调,进而测评模型在 GSM8K 和 MATH 的表现。实验结果表明,当对每一个测试集中的课题从 256 个生成的谜底中选择最佳谜底时,测试准确率可分别高达 97.7% 和 72.0%,这一结果说明即使是通用预训练下 7B 量级的小模型,也具备生成优质回答的巨大后劲,这一发现挑战了以往的观点,即强大的数学推理后劲并非仅限于大规模和数学相关预训练模型。

LLaMA-2-7B数学威力上限已达97.7%?Xwin-Math利用分解数据解锁后劲

然而钻研也指出,尽管已具备强大的数学推理后劲,但当前言语模型的主要课题是难以一致地激发其内在的数学威力。例如,在前面的实验中如果只考虑每个课题的一次生成的谜底,那么在 GSM8K 和 MATH 基准测试上的准确率会分别降至 49.5% 和 7.9%。这体现出模型数学威力的不稳定性课题。为了办理这一课题,钻研团队采用了扩大有监督微调(SFT)数据集的办法,并发现随着 SFT 数据的增多,模型生成正确谜底的可靠性被明显提高。

钻研中还提到,通过使用分解数据,可以有效地扩大 SFT 数据集,而且这种办法几乎与真实数据一样有效。钻研团队利用 GPT-4 Turbo API 生成了分解的数学课题与解题过程,并通过简单的验证提示词来确保课题的质量。通过这种办法,团队成功地将 SFT 数据集从 7.5K 扩展到约一百万样本,实现了近乎完美的缩放定律(Scaling Law)。最终获得的 Xwin-Math-7B 模型在 GSM8K 和 MATH 上分别达到了 82.6% 和 40.6% 的准确率,大幅逾越此前的 SOTA 模型,甚至可逾越一些 70B 量级模型,实现越级提高。而 Xwin-Math-70B 模型在 MATH 评测集上的结果可达 52.8%,明显逾越了 GPT-4 的早期版本。这是基于 LLaMA 系列基础模型的钻研第一次在 MATH 上逾越 GPT-4。

LLaMA-2-7B数学威力上限已达97.7%?Xwin-Math利用分解数据解锁后劲

钻研人员还定义了 Pass@N 和 PassRatio@N 评测指标,意图分别测评模型的 N 次输出中,是否能够输出正确谜底(表示模型潜在的数学威力),以及正确谜底的所占比例(表示模型数学威力的稳定性)。当 SFT 数据量较小时,模型的 Pass@256 已经很高,进一步扩大 SFT 数据规模后,模型的 Pass@256 提高极小,而 PassRatio@256 则获得明显增长。这表明基于分解数据的有监督微调是提高模型数学威力稳定性的有效方式。

LLaMA-2-7B数学威力上限已达97.7%?Xwin-Math利用分解数据解锁后劲

此外,钻研还提供了对不同推理复杂性和错误类型下扩展行为的洞察。例如,随着 SFT 数据集规模的增加,模型在办理数学课题时的准确率遵循与推理步骤数量相关的幂律关系。通过增加训练样本中长推理步骤的比例,可以明显提高模型办理难题的准确率。同时,钻研还发现,计算错误比推理错误更容易被缓解。

LLaMA-2-7B数学威力上限已达97.7%?Xwin-Math利用分解数据解锁后劲

LLaMA-2-7B数学威力上限已达97.7%?Xwin-Math利用分解数据解锁后劲

在表现模型数学推理泛化威力的匈牙利高中数学考试中,Xwin-Math 也拿到了 65% 的分数,仅次于 GPT-4。这表明钻研中分解数据的方式并没有明显地过拟合到评测集中,展现出良好的泛化威力。

LLaMA-2-7B数学威力上限已达97.7%?Xwin-Math利用分解数据解锁后劲

LLaMA-2-7B数学威力上限已达97.7%?Xwin-Math利用分解数据解锁后劲

这项钻研不仅展示了分解数据在扩展 SFT 数据方面的有效性,而且为大型言语模型在数学推理威力方面的钻研提供了新的视角。钻研团队表示,他们的工作为未来在这一领域的探索和进步奠定了基础,并期待能够推动人工智能在数学课题办理方面取得更大的突破。随着人工智能技术的不断进步,我们有理由期待 AI 在数学领域的表现将更加出色,为人类办理复杂数学课题提供更多帮助。

文章还涉及数据分解办法的消融实验和其他评测指标的结果,详细内容请参阅全文。

给TA打赏
共{{data.count}}人
人已打赏
工程

AI图片橡皮擦来了,清华&阿里合作推出「观点半透膜」模型,还能改头换面

2024-3-13 14:29:00

工程

提升生成式零样本进修能力,视觉增强动态语义原型办法入选CVPR 2024

2024-3-15 14:59:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索