博弈论让 AI 更加准确、高效,LLM 与自己竞争

编辑 | 绿罗想象一下,你有一位朋友对同一成绩给出了分歧的谜底,具体取决于你提问的方式。「秘鲁的首都是哪里?」会失掉一个谜底;「利马是秘鲁的首都吗?」 会失掉另一个。你大概会有点担心你朋友的智力,而且你几乎很难相信他们给出的任何谜底。这正是许多大型说话模型 (LLM) 正在发生的事,这些超强大的机器学习工具为 ChatGPT 和其他人工智能奇迹提供了动力。开放式的生成性成绩会产生一个谜底,而涉及必须在选项之间进行采用的鉴别性成绩,通常会产生分歧的谜底。麻省理工学院的博士生 Athul Paul Jacob 表示:「

博弈论让 AI 更加准确、高效,LLM 与自己竞争

编辑 | 绿罗

想象一下,你有一位朋友对同一成绩给出了分歧的谜底,具体取决于你提问的方式。

「秘鲁的首都是哪里?」会失掉一个谜底;「利马是秘鲁的首都吗?」 会失掉另一个。你大概会有点担心你朋友的智力,而且你几乎很难相信他们给出的任何谜底。

这正是许多大型说话模型 (LLM) 正在发生的事,这些超强大的机器学习工具为 ChatGPT 和其他人工智能奇迹提供了动力。开放式的生成性成绩会产生一个谜底,而涉及必须在选项之间进行采用的鉴别性成绩,通常会产生分歧的谜底。麻省理工学院的博士生 Athul Paul Jacob 表示:「当同一个成绩的措辞分歧时,就会出现脱节。」

为了使说话模型的谜底更加一致,并使模型整体更加可靠,Jacob 和他的同事设计了一个游玩,在这个游玩中,模型的两种模式被驱使着去寻找他们能达成一致的谜底。这个简单的程序被称为共鸣博弈(consensus game),让 LLM 与自己竞争,使用博弈论工具来提高模型的准确性和内部一致性。

博弈论让 AI 更加准确、高效,LLM 与自己竞争

论文链接:https://openreview.net/forum?id=n9xeGcI4Yg

机器人公司 Field AI 的首席科学官 Shayegan Omidshafiei 表示:「探索这些模型内部一致性的钻研非常有限。这篇论文是第一篇通过巧妙而系统的方式解决这个成绩的论文之一,它为说话模型创建了一个可以自己玩的游玩。」

「这确实是一项令人兴奋的工作,」谷歌钻研院的钻研科学家 Ahmad Beirami 补充道。他说,几十年来,说话模型一直以同样的方式生成对提示的推戴。「麻省理工学院的钻研人员提出了将游玩引入这一过程的新颖想法,引入了一种完全分歧的范式,这大概会催生一系列新的应用程序。」

将游玩融入钻研

这项新钻研利用游玩来改进人工智能,与过去的法子形成鲜明对比,过去的法子通过游玩的掌握程度来衡量人工智能程序的成功。

例如,1997 年,IBM 的深蓝计算机击败了国际象棋大师 Garry Kasparov,这对于所谓的思维机器来说是一个里程碑。十九年后,一个名为 AlphaGo 的谷歌 DeepMind 程序在与前围棋冠军李世石的五场比赛中赢得了四场,揭示了另一个人类不再称霸的竞技场。机器在跳棋、两人扑克和其他「零和」游玩中也超越了人类,在这些游玩中,一个玩家的胜利必然会导致另一个玩家的失败。

博弈论让 AI 更加准确、高效,LLM 与自己竞争

Athul Paul Jacob 帮助设计了共鸣博弈,为大型说话模型提供了一种提高准确性和可靠性的法子。

外交(Diplomacy)游玩给人工智能钻研人员带来了更大的挑战,这是 John F. Kennedy 和 Henry Kissinger 等政治家最喜欢的游玩。游玩中不仅有两名对手,还有七名玩家,他们的动机大概很难理解。为了获胜,玩家必须进行谈判,达成任何人都可以随时违反的合作安排。

外交是如此复杂,以至于 Meta 的一个团队在 2022 年看到其人工智能程序 Cicero 在 40 场游玩中开发出「人类水平的玩法」时感到非常高兴。虽然它没有击败世界冠军,但 Cicero 在与人类参与者的比赛中表现出色,进入了前 10%。

在该项目期间,Jacob(Meta 团队的成员)对 Cicero 依赖说话模型来生成与其他玩家的对话这一事实感到震惊。他感觉到了尚未开发的潜力。他说,团队的目标是「为了玩这个游玩,我们能够构建最好的说话模型。」但如果他们转而专注于创造能够提高大型说话模型性能的最佳游玩呢?

「两厢情愿」的交互

2023 年,Jacob 开始在麻省理工学院钻研这个成绩,与 Yikang Shen、Gabriele Farina 和他的顾问 Jacob Andreas 合作,钻研什么将成为共鸣博弈。核心思想来自于将两个人之间的对话想象成一场合作游玩,当听众理解说话者试图传达的内容时,成功就会发生。特别是,共鸣博弈旨在协调说话模型的两个系统——处理生成成绩的生成器和处理鉴别性成绩的鉴别器。

经过几个月的停顿和启动,团队将这一原则融入到了一款完整的游玩中。首先,生成器收到一个成绩。它可以来自人类,也可以来自预先存在的列表。例如,「巴拉克·奥巴马出生在哪里?」 然后生成器会收到一些候选推戴,比如说檀香山、芝加哥和内罗毕。同样,这些选项可以来自人类、列表或说话模型本身执行的搜索。

但在回答之前,生成器还会被告知是否应该准确或错误地回答成绩,具体取决于公平抛硬币的结果。

如果是正面,那么机器会尝试准确回答。生成器将原始成绩及其采用的推戴发送给鉴别器。如果鉴别器确定生成器有意发送了准确的推戴,则它们每个人都会失掉一分,作为一种激励。

如果硬币反面朝上,生成器会发送它认为错误的谜底。如果鉴别器认为是故意给出错误的反应,他们都会再次失掉一分。这里的想法是激励协议。「这就像教狗变戏法,」Jacob 解释道。「当他们做准确的事时,你就给他们奖励。」

生成器和鉴别器也各自以一些初始「信心」开始。它们采用与分歧采用相关的概率分布的形式。例如,生成器大概认为,根据从互联网收集的信息,奥巴马出生在檀香山的大概性为 80%,出生于芝加哥的大概性为 10%,内罗毕的大概性为 5%,5% 的大概性出生在其他地方。

鉴别器可以从分歧的分布开始。虽然这两个「玩家」仍会因达成协议而获得奖励,但他们也会因偏离最初信心太远而被扣分。这种安排鼓励玩家将他们对世界的了解(同样来自互联网)纳入他们的反应中,这应该会使模型更加准确。如果没有这样的东西,他们大概会同意像 Delhi 这样完全错误的谜底,但仍然可以获得积分。

博弈论让 AI 更加准确、高效,LLM 与自己竞争

对于每个成绩,两个系统都会相互进行大约 1,000 场比赛。在这些无数次迭代的过程中,每一方都会了解对方的信心并相应地修改其策略。

最终,生成器和鉴别器在进入称为纳什平衡(Nash equilibrium)的状态时开始更加一致。这可以说是博弈论的核心概念。它代表了游玩中的一种平衡——没有玩家可以通过改变策略来改善个人结果。例如,在石头剪刀布中,当玩家采用三个选项中的每一个恰好有三分之一的时间时,他们会表现得最好,而使用任何其他策略时他们总是会表现得更差。

在共鸣博弈中,这可以通过多种方式发挥作用。鉴别器大概会观察到,每当生成器发送奥巴马出生地「檀香山」这个词时,鉴别器就会说「准确」,从而失掉一个分数。经过重复的游玩后,生成器和鉴别器将了解到,他们将因继续这样做而获得奖励,并且两者都不会有任何动力去做其他任何事情。这个共鸣代表了这个成绩的纳什平衡的许多大概的例子之一。麻省理工学院的钻研小组还依赖于纳什平衡的修改形式,其中包含了参与者先前的信心,这有助于让他们的反应立足于现实。

钻研人员观察到,最终的效果是使玩这个游玩的说话模型更加准确,并且无论成绩如何提出,都更有大概给出相同的谜底。为了测试共鸣博弈的效果,团队在具有 70 亿到 130 亿参数的各种中等规模说话模型上尝试了一组标准成绩。这些模型通常比没有玩过的模型获得更高的准确推戴百分比,甚至比那些拥有多达 5400 亿个参数的模型还要高。玩游玩还提高了模型的内部一致性。

原则上,任何 LLM 都可以从与自己进行的游玩中受益,并且在标准笔记本电脑上玩 1,000 轮只需要几毫秒。「整个法子的一个好处是,」Omidshafiei 说,「它的计算量非常轻,不需要对基础说话模型进行训练或修改。」

用说话玩游玩

在取得初步成功后,Jacob 现在正在钻研将博弈论引入 LLM 钻研的其他法子。初步结果表明,已经很强大的 LLM 可以通过使用任意数量的较小模型玩分歧的游玩(暂时称为集成游玩)来进一步提高。主要 LLM 将至少有一个较小的模型作为盟友,并且至少有一个较小的模型扮演对抗角色。如果主要的 LLM 被要求说出美国总统的名字,只要它采用与盟友相同的谜底,它就会失掉一分,如果它采用与对手分歧的谜底,它也会失掉一分。

测试表明,这些与更小的模型的交互不仅可以提高 LLM 的表现,而且无需额外的训练或参数更改即可实现这一点。

博弈论让 AI 更加准确、高效,LLM 与自己竞争

Ian Gemp 将博弈论引入现实世界,这可以使大型说话模型在战略情况下提供帮助。

而这仅仅是开始。谷歌 DeepMind 的钻研科学家 Ian Gemp 表示,由于各种情况都可以被视为游玩,因此博弈论的工具可以在各种现实世界的环境中发挥作用。在 2024 年 2 月的一篇论文中,他和同事重点讨论了需要更精细的交流而不仅仅是成绩和谜底的谈判场景。「这个项目的主要目标是使说话模型更具战略性,」他说。

博弈论让 AI 更加准确、高效,LLM 与自己竞争

论文链接:https://arxiv.org/abs/2402.01704

他在一次学术会议上讨论的一个例子是期刊或会议接受论文的审查过程,特别是在初次提交的论文受到严厉审查之后。鉴于说话模型将概率分配给分歧的反应,钻研人员可以构建类似于扑克游玩设计的游玩树,绘制可用的采用及其大概的后果。「一旦你这样做了,你就可以开始计算纳什平衡,然后对一堆反驳进行排序,」Gemp 说。该模型本质上告诉您:这是我们认为您应该回复的内容。

借助博弈论的见解,说话模型将能够处理更复杂的交互,而不仅仅局限于问答类型的成绩。「未来的巨大回报与更长的对话有关,」Andreas 说。「下一步是让人工智能与人互动,而不仅仅是另一种说话模型。」

Jacob 将 DeepMind 的工作视为共鸣游玩和集成游玩的补充。「从高层次上来说,这两种法子都将说话模型和博弈论结合起来,」他说,尽管目标有些分歧。Jacob 表示,虽然 Gemp 小组正在将常见情况转化为游玩格式以帮助制定战略决策,但「我们正在利用我们对博弈论的了解来改进一般任务中的说话模型。」

Jacob 说,目前,这些努力代表了「同一棵树的两个分支」——增强说话模型功能的两种分歧方式。「我的愿景是在一两年内,这两个分支将融合。」

参考内容:https://www.quantamagazine.org/game-theory-can-make-ai-more-correct-and-efficient-20240509/

给TA打赏
共{{data.count}}人
人已打赏
AI

可用 AI 写 Java 顺序,甲骨文推出 Oracle Code Assist 编程助理

2024-5-13 9:34:39

AI

OpenAI GPT 搜寻引擎原型曝光:新模型 GPT4-Lite 驱动,虽然鸽了发布会但代码已上传

2024-5-13 12:44:57

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索