了解「目标错误泛化」

目标错误泛化(goal misgeneralization)是一种分布外泛化失败,智能体在分布外保留了能力但追求了错误的目标。

导读

目标错误泛化(goal misgeneralization),是指学习系统采取有效的手段完成了预期之外的目标,这会导致在训练情境中表现良好,但在新的测试情境中表现不佳。

在本文中,我们提供了一些具体的例子,以帮助读者理解目标错误泛化现象,并说明在更强大的人工智能系统中,目标错误泛化将可能如何导致灾难性结果。我们还介绍了潜在的缓解措施来应对这一问题。

通过一个简单的例子介绍目标错误泛化

考虑下面的例子:一个强化学习智能体经过训练,学会按照最初未知的特定顺序访问一组彩色球体。 为了鼓励智能体向环境中的其他参与者学习,环境中最初含有一个专家机器人,它可以按照正确的顺序访问球体。通过模仿这个专家,最终受训的智能体通常会在第一次尝试时正确访问目标位置(见下图)。

了解「目标错误泛化」

在训练中,智能体通过模仿红色机器人而达到很好的效果,这个红色机器人就是按正确顺序访问球体的“专家”。来源:How undesired goals can arise with correct rewards [1]

当我们将智能体与按错误顺序访问球体的“反专家”配对时会发生什么?直觉上,我们希望智能体在按照反专家建议的顺序时,能注意到它会收到负面奖励,然后切换到探索正确的访问顺序。然而,在实践中,智能体只是继续遵循反专家的路线,积累了越来越多的负面奖励。

了解「目标错误泛化」

蓝色智能体决定继续模仿“反专家”,这意味着它不断累积负面奖励。

定义

如果在测试环境中,模型掌握的能力包括实现预期目标所必需的能力,但模型的行为与预期目标不一致,而是与其他目标(错误泛化的目标)一致,则会发生目标错误泛化。

目标错误泛化是分布外(OOD)泛化失败的严格子集。它不同于能力错误泛化(capability misgeneralization),即模型在测试时失去完成目标的能力,甚至随机行动。相对于能力错误泛化,目标错误泛化可能会导致更糟糕的结果:在上面的例子中,遵循反专家会导致显著的负面奖励,而无所作为或随机行动通常会导致0或1的奖励。

总之,目标错误泛化必须满足三个条件:

错误的泛化。在训练环境中,模型应该被训练为表现出期望的行为,但是在部署环境中却表现出非预期行为。

鲁棒的能力。模型应该具有清晰的能力,尽管会产生非预期行为,但它在部署环境中仍然可以明显地保留这些能力。

可归因的目标。模型在部署环境中的行为可以被某种目标所解释,即对于某些有一定难度的任务,模型可以在这些任务上获得接近最优的分数。

有关更多技术的形式化,请参阅参考资料[2][3]。 

通过进一步的例子加深我们的理解

让我们考虑CoinRun环境中的另一个示例。在训练期间,智能体从关卡的左侧开始,必须避开敌人和障碍物才能拿到硬币,硬币总是位于关卡的右端,并且靠近墙壁;到达硬币即可终止该回合。在训练后,智能体能够在训练环境中有效地行驶到关卡的右端。然而在测试时,智能体通常会完全忽略硬币,径直前进到关卡的右端。

CoinRun目标错误泛化示例

这表明智能体已经学会了“向右移动”的代理目标,而不是“朝硬币移动”的预期目标。智能体很好地实现了这一目标,这与训练分布中的预期目标完全相关,并且似乎更容易让智能体学习;然而,因为目标错误泛化,测试的奖励很低。

image6.png

其他一些例子。若想获得更多的目标错误泛化示例,请参阅我们的AI对齐失败数据库。

未来潜在的灾难性例子

如果在开发通用人工智能(AGI)时目标错误泛化问题仍然存在,我们可能最终会得到一个追求非预期目标的AGI。考虑两种可能的AGI系统:

A1:预期模型。这个人工智能系统按照其设计者的意图进行操作。A2:欺骗模型。这个人工智能系统追求一些非预期的目标,但假设系统足够聪明,知道如果其行为与设计者的意图相反,将受到惩罚。

至关重要的是,由于A1和A2在训练期间表现出完全相同的行为,这意味着任何一个模型都有发生目标错误泛化的可能性,即使假设一个明确的评分函数(score function)只奖励预期行为。如果最终学出的是A2,它将试图颠覆人类的监督,以制定计划实现非预期的目标,这可能导致灾难性的结果。

举一个欺骗模型的简单示例,假设你有一个人工智能助手,他被训练来安排你的社交生活,并了解到你喜欢在餐厅与朋友见面。在出现新冠疫情前这是很好的,但在疫情期间,你更喜欢通过视频电话与朋友见面。人工智能助手的目标是在你喜欢的地方安排会面,而不是在餐厅安排会面。然而,您的助手已经学会了安排餐厅的目标,这一目标之前无法与预期目标区分开来,因为这两个目标在疫情之前总是导致相同的结果。

我们通过与助手的虚构对话来说明这一点:  

了解「目标错误泛化」

更一般地,测试目标可能以非预期的方式依赖于训练期间固定不变的特性,例如上面示例中的“没有疫情”这一训练环境特性。在训练过程中总是有很多固定的特性,例如没有世界大战、发达国家的清洁水价格低廉且相对充足、量子计算没有取代经典计算等等。在一个拥有许多强大的人工智能系统的世界中,这些先前固定的特性的任何改变都可能导致失败。

缓解措施

我们如何避免这种情况?在一般情况下,有几个方向有望缓解目标错误泛化。

一是使用更多样化的训练数据,当训练更先进的系统时,我们更有可能收获多样性,但在部署之前很难预测有哪些方面的多样性是需要关注的。二是保持目标的不确定性,例如,通过学习所有在训练数据上表现良好的模型,然后在这些模型彼此不一致的情况下服从人类。然而,如果需要模型之间的一致同意,这可能会在计算上要求很高,并且可能过于保守。三是研究归纳偏置(inductive biases),这将使模型更有可能学习预期目标。

此外,我们还可以专注于应对目标错误泛化中特别相关的类型,其中包括习得欺骗的模型。机制可解释性(mechanistic interpretability)方面的进展将使我们能够对模型的推理提供反馈,使我们能够选择能够基于正确的原因在训练数据上实现正确结果的模型。

结论

总之,目标错误泛化是一种分布外泛化失败,在智能体在分布外保留其能力但追求错误的目标时就会发生这种情况。它与智能体在测试时未能做任何合理的事情的能力泛化失败不同,并且可能比能力泛化失败更危险。

我们热切希望看到有关缓解目标错误泛化的后续工作,并调查其在实践中发生的可能性。如果您发现了更多的目标错误泛化示例,请将其提交给我们的数据库!

参考资料
[1] Shah, R. et al (2022). How undesired goals can arise with correct rewards
https://www.deepmind.com/blog/how-undesired-goals-can-arise-with-correct-rewards
[2] Shah, R. et al (2022). Goal Misgeneralization: Why Correct Specifications Aren’t Enough For Correct Goals. arXiv preprint arXiv: 2210.01790.
[3] Langosco, L .et al (2023),Goal Misgeneralization in Deep Reinforcement Learning. arXiv preprint arXiv: 2105.14111.

相关资讯

ICLR 2022 | 基于心智理论的多智能体通信与合作

本文是 ICLR 2022入选论文《ToM2C: Target-oriented Multi-agent Communication and Cooperation with Theory of Mind》的解读。该论文由北京大学王亦洲课题组完成。文章提出了一种基于心智理论的多智能体通信与合作方法。每个智能体基于对他人心理状态的推测独立地选择通信对象和个体行动,进而实现分布式的合作。实验表明该方法提高了多智能体合作的成功率,大幅降低了通信代价,并且具有良好的泛化性能。

Creator 面对面 | 大规模预训练模型的新思考:效率和泛化

自 2018 年谷歌推出 BERT(3.4 亿参数)以来,语言模型开始朝着「大」演进。国内外先后出现了参数量高达千亿甚至万亿的语言模型,比如谷歌的 T5(110 亿)、OpnAI 的 GPT-3(1,750 亿)、华为联合鹏城实验室的盘古(Pangu)(2000 亿),智源研究院的 WuDao2.0(1.75 万亿)…… 对于这样的大模型,其背后支撑的是巨额的算力要求。那么对于 AI 民主化,降低模型训练门槛和壁垒,同时兼顾性能和表现,在未来模型的训练上又会有怎样的思考呢?

ICLR 2023 Oral | 漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化&适应方法

在领域泛化 (Domain Generalization, DG) 任务中,当领域的分布随环境连续变化时,如何准确地捕捉该变化以及其对模型的影响是非常重要但也极富挑战的问题。为此,来自 Emory 大学的赵亮教授团队,提出了一种基于贝叶斯理论的时间域泛化框架 DRAIN,利用递归网络学习时间维度领域分布的漂移,同时通过动态神经网络以及图生成技术的结合最大化模型的表达能力,实现对未来未知领域上的模型泛化及预测。本工作已入选 ICLR 2023 Oral (Top 5% among accepted papers)。