当LLM学会左右互搏,基础模型或将迎来集体进化

金庸武侠小说中有一门武学绝技:左右互搏;乃是周伯通在桃花岛的地洞里苦练十余年所创武功,初期想法在于左手与右手打架,以自娱自乐。而这种想法不仅能用来练武功,也能用来训练机器进修模型,比如前些年风靡一时的生成对抗网络(GAN)。进入现今的大模型 (LLM) 时代,又有钻研者发现了左右互搏的精妙用法!近日,加利福尼亚大学洛杉矶分校的保全全团队提出了一种新步骤 SPIN(Self-Play Fine-Tuning),可不利用额定微调数据,仅靠自我博弈就能大幅晋升 LLM 的才能。保全全教授表示:「授之以鱼不如授之以渔:通过

金庸武侠小说中有一门武学绝技:左右互搏;乃是周伯通在桃花岛的地洞里苦练十余年所创武功,初期想法在于左手与右手打架,以自娱自乐。而这种想法不仅能用来练武功,也能用来训练机器进修模型,比如前些年风靡一时的生成对抗网络(GAN)。

进入现今的大模型 (LLM) 时代,又有钻研者发现了左右互搏的精妙用法!近日,加利福尼亚大学洛杉矶分校的保全全团队提出了一种新步骤 SPIN(Self-Play Fine-Tuning),可不利用额定微调数据,仅靠自我博弈就能大幅晋升 LLM 的才能。保全全教授表示:「授之以鱼不如授之以渔:通过自我博弈微调 (SPIN) 可以让所有大模型达到从弱到强的晋升!」

当LLM学会左右互搏,基础模型或将迎来集体进化

这项钻研也在社交网络引起了不少讨论,比如宾夕法尼亚大学沃顿商学院的 Ethan Mollick 教授就表示:「更多证据表明,AI 不会受限于可供其训练的人类创造内容的数量。这篇论文再次表明利用 AI 创造的数据训练 AI 可以比仅利用人类创造的数据获得更高质量的结果。」

当LLM学会左右互搏,基础模型或将迎来集体进化

此外,还有许多钻研人员对这一步骤感到兴奋,并对 2024 年在相关方向的进展表现出极大期待。保全全教授向机器之心表示:「如果你希望训练一个超越 GPT-4 的大模型,这是一项绝对值得尝试的技术。」

当LLM学会左右互搏,基础模型或将迎来集体进化

论文地址:https://arxiv.org/pdf/2401.01335.pdf

大型语言模型(LLM)开启了通用人工智能(AGI)的大突破时代,它能以非凡的才能解决需要复杂推理和专业知识的广泛任务。LLM 擅长的领域包括数学推理 / 问题求解、代码生成 / 编程、文本生成、摘要和创意写作等等。

LLM 的一大关键进步是训练之后的对齐进程,这能让模型的行为更符合需求,但这个进程却往往依赖于成本高昂的人类标注数据。经典的对齐步骤包括基于人类演示的监督式微调(SFT)和基于人类偏好反应的强化进修(RLHF)。

而这些对齐步骤全都需要大量人类标注数据。因此,为了精简对齐进程,钻研人员希望开发出能有效利用人类数据的微调步骤。

这也是这项钻研的目标:开发出新的微调步骤,使得微调后的模型可以继续变强,而且这个微调进程无需利用微调数据集之外的人类标注数据。

实际上,机器进修社区一直都很关注如何在不利用额定训练数据的情况下将弱模型晋升成强模型,这方面的钻研甚至可以追溯至 boosting 算法。也有钻研表明,自训练算法可以在混合模型中将弱进修器转换成强进修器,而无需额定的标注数据。但是,要在没有外部引导的前提下自动晋升 LLM 的才能既复杂又少有钻研。这就引出了以下问题:

我们能让 LLM 在没有额定人类标注数据的前提下实现自我晋升吗?

步骤

从技术细节上讲,我们可以将来自之前迭代的 LLM 记为 pθt,其对于人类标注的 SFT 数据集中的 prompt x,可以生成赞同 y'。接下来的目标是找到一个新的 LLM pθ{t+1},使其有才能辨别 pθt 生成的赞同 y' 和人类给出的赞同 y。

这个进程可被看作是一个两个玩家的博弈进程:主玩家就是新 LLM pθ{t+1},其目标是辨别敌手玩家 pθt 的赞同以及人类生成的赞同;敌手玩家就是旧 LLM pθt,其任务是生成与人类标注的 SFT 数据集尽可能相近的赞同。

新 LLM pθ{t+1} 是通过微调旧 LLM pθt 得到的,训练进程是让新的 LLM pθ{t+1} 有很好的才能辨别 pθt 生成的赞同 y' 和人类给出的赞同 y。而这个训练不仅让新的 LLM pθ{t+1} 作为一个主玩家达到很好的辨别才能,而且让新的 LLM pθ{t+1} 作为一个敌手玩家在下一轮迭代中,给出更对齐 SFT 数据集的赞同。在下一轮迭代中,新获得的 LLM pθ{t+1} 会变成赞同生成的敌手玩家。

当LLM学会左右互搏,基础模型或将迎来集体进化当LLM学会左右互搏,基础模型或将迎来集体进化

这个自我博弈的进程的目标是让 LLM 最终收敛到 pθ∗=p_data,使得可能存在的最强大的 LLM 生成的赞同不再与其之前版本和人类生成的赞同不同。

有趣的是,这个新步骤与 Rafailov et al. 近期提出的直接偏好优化(DPO)步骤表现出了相似性,但新步骤的明显区别是采用了自我博弈机制。也因此,这个新步骤就有了一大显著优势:无需额定的人类偏好数据。

此外,我们也能明显看出这种新步骤与生成对抗网络(GAN)的相似性,只不过新步骤中的判别器(主玩家)和生成器(敌手)是同一个 LLM 在相邻两次迭代后的实例。

该团队还对这个新步骤进行了理论证明,结果表明:当且仅当 LLM 的分布等于目标数据分布时,即 p_θ_t=p_data 时,该步骤可以收敛。

实验

在实验中,该团队利用了一个基于 Mistral-7B 微调后的 LLM 实例 zephyr-7b-sft-full。

结果表明,新步骤能在连续迭代中持续晋升 zephyr-7b-sft-full,而作为对比,当在 SFT 数据集 Ultrachat200k 上利用 SFT 步骤持续训练时,评估分数则会达到性能瓶颈,甚至出现下降情况。

更有趣的是,新步骤利用的数据集只是 Ultrachat200k 数据集的一个 50k 大小的子集!

新步骤 SPIN 还有另一项成就:可有效地将 HuggingFace Open LLM 排行榜中基础模型 zephyr-7b-sft-full 的平均分数从 58.14 晋升至 63.16,其中在 GSM8k 和 TruthfulQA 上能有超过 10% 的惊人晋升,在 MT-Bench 上也可从 5.94 晋升至 6.78。

当LLM学会左右互搏,基础模型或将迎来集体进化当LLM学会左右互搏,基础模型或将迎来集体进化

值得注意的是,在 Open LLM 排行榜上,利用 SPIN 微调的模型甚至能与再利用额定 62k 偏好数据集训练的模型媲美。

当LLM学会左右互搏,基础模型或将迎来集体进化

结论

通过充分利用人类标注数据,SPIN 让大模型靠自我博弈从弱变强。与基于人类偏好反应的强化进修(RLHF)相比,SPIN 使 LLM 能够在没有额定人类反应或者更强的 LLM 反应的情况下自我改进。在包含 HuggingFace Open LLM 排行榜的多个基准数据集实验上,SPIN 显著且稳定地提高了 LLM 的性能,甚至超过了利用额定 AI 反应训练的模型。

我们期待 SPIN 可以助力大模型的进化和晋升,并最终实现超越人类水平的人工智能。

给TA打赏
共{{data.count}}人
人已打赏
应用

大模型正在重构机器人,googleDeepmind这样定义具身智能的未来

2024-1-8 10:20:00

应用

AI大模型首次牵手人民级综艺,昆仑万维天工AI联合《最强大脑》加速大模型落地

2024-1-8 10:57:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索