导读
宗旨搭档泛化(goal misgeneralization),是指进修体系采取有效的手段完成了预期之外的宗旨,这会引导在训练情境中表现良好,但在新的尝试情境中表现不佳。
在本文中,我们提供了一些具体的例子,以帮助读者理解宗旨搭档泛化现象,并说明在更强大的人工智能体系中,宗旨搭档泛化将能够如何引导灾难性结果。我们还介绍了潜在的缓解措施来应对这一问题。
通过一个简单的例子介绍宗旨搭档泛化
考虑下面的例子:一个强化进修智能体经过训练,学会按照最初未知的特定次第走访一组彩色球体。 为了鼓励智能体向情况中的其他参与者进修,情况中最初含有一个大师机器人,它可以按照精确的次第走访球体。通过模仿这个大师,最终受训的智能体通常会在第一次尝试时精确走访宗旨位置(见下图)。
在训练中,智能体通过模仿红色机器人而达到很好的效果,这个红色机器人就是按精确次第走访球体的“大师”。来源:How undesired goals can arise with correct rewards [1]
当我们将智能体与按搭档次第走访球体的“反大师”配对时会发生什么?直觉上,我们希望智能体在按照反大师建议的次第时,能注意到它会收到反面赞美,然后切换到探索精确的走访次第。然而,在实践中,智能体只是继续遵循反大师的路线,积累了越来越多的反面赞美。
蓝色智能体决定继续模仿“反大师”,这意味着它不断累积反面赞美。
定义
如果在尝试情况中,模型掌握的威力包括实现预期宗旨所必需的威力,但模型的举动与预期宗旨不一致,而是与其他宗旨(搭档泛化的宗旨)一致,则会发生宗旨搭档泛化。
宗旨搭档泛化是分布外(OOD)泛化失利的严格子集。它不同于威力搭档泛化(capability misgeneralization),即模型在尝试时失去完成宗旨的威力,甚至随机行动。相对于威力搭档泛化,宗旨搭档泛化能够会引导更糟糕的结果:在上面的例子中,遵循反大师会引导显著的反面赞美,而无所作为或随机行动通常会引导0或1的赞美。
总之,宗旨搭档泛化必须满足三个条件:
搭档的泛化。在训练情况中,模型应该被训练为表现出期望的举动,但是在部署情况中却表现出非预期举动。
鲁棒的威力。模型应该具有清晰的威力,尽管会产生非预期举动,但它在部署情况中仍然可以明显地保留这些威力。
可归因的宗旨。模型在部署情况中的举动可以被某种宗旨所解释,即对于某些有一定难度的任务,模型可以在这些任务上获得接近最优的分数。
有关更多技术的形式化,请参阅参考资料[2][3]。
通过进一步的例子加深我们的理解
让我们考虑CoinRun情况中的另一个示例。在训练期间,智能体从关卡的左侧开始,必须避开敌人和障碍物才能拿到硬币,硬币总是位于关卡的右端,并且靠近墙壁;到达硬币即可终止该回合。在训练后,智能体能够在训练情况中有效地行驶到关卡的右端。然而在尝试时,智能体通常会完全忽略硬币,径直前进到关卡的右端。
CoinRun宗旨搭档泛化示例
这表明智能体已经学会了“向右移动”的代理宗旨,而不是“朝硬币移动”的预期宗旨。智能体很好地实现了这一宗旨,这与训练分布中的预期宗旨完全相关,并且似乎更容易让智能体进修;然而,因为宗旨搭档泛化,尝试的赞美很低。
其他一些例子。若想获得更多的宗旨搭档泛化示例,请参阅我们的AI对齐失利数据库。
未来潜在的灾难性例子
如果在开发通用人工智能(AGI)时宗旨搭档泛化问题仍然存在,我们能够最终会得到一个追求非预期宗旨的AGI。考虑两种能够的AGI体系:
A1:预期模型。这个人工智能体系按照其设计者的意图进行操作。A2:欺骗模型。这个人工智能体系追求一些非预期的宗旨,但假设体系足够聪明,知道如果其举动与设计者的意图相反,将受到惩罚。
至关重要的是,由于A1和A2在训练期间表现出完全相同的举动,这意味着任何一个模型都有发生宗旨搭档泛化的能够性,即使假设一个明确的评分函数(score function)只赞美预期举动。如果最终学出的是A2,它将试图颠覆人类的监督,以制定计划实现非预期的宗旨,这能够引导灾难性的结果。
举一个欺骗模型的简单示例,假设你有一个人工智能帮忙,他被训练来安排你的社交生活,并了解到你喜欢在餐厅与朋友见面。在出现新冠疫情前这是很好的,但在疫情期间,你更喜欢通过视频电话与朋友见面。人工智能帮忙的宗旨是在你喜欢的地方安排会面,而不是在餐厅安排会面。然而,您的帮忙已经学会了安排餐厅的宗旨,这一宗旨之前无法与预期宗旨区分开来,因为这两个宗旨在疫情之前总是引导相同的结果。
我们通过与帮忙的虚构对话来说明这一点:
更一般地,尝试宗旨能够以非预期的方式依赖于训练期间固定不变的特色,例如上面示例中的“没有疫情”这一训练情况特色。在训练过程中总是有很多固定的特色,例如没有世界大战、发达国家的清洁水价格低廉且相对充足、量子计算没有取代经典计算等等。在一个拥有许多强大的人工智能体系的世界中,这些先前固定的特色的任何改变都能够引导失利。
缓解措施
我们如何避免这种情况?在一般情况下,有几个方向有望缓解宗旨搭档泛化。
一是使用更多样化的训练数据,当训练更先进的体系时,我们更有能够收获多样性,但在部署之前很难预测有哪些方面的多样性是需要关注的。二是保持宗旨的不确定性,例如,通过进修所有在训练数据上表现良好的模型,然后在这些模型彼此不一致的情况下服从人类。然而,如果需要模型之间的一致同意,这能够会在计算上要求很高,并且能够过于保守。三是研究归纳偏置(inductive biases),这将使模型更有能够进修预期宗旨。
此外,我们还可以专注于应对宗旨搭档泛化中特别相关的类型,其中包括习得欺骗的模型。机制可解释性(mechanistic interpretability)方面的进展将使我们能够对模型的推理提供反馈,使我们能够选择能够基于精确的原因在训练数据上实现精确结果的模型。
结论
总之,宗旨搭档泛化是一种分布外泛化失利,在智能体在分布外保留其威力但追求搭档的宗旨时就会发生这种情况。它与智能体在尝试时未能做任何合理的事情的威力泛化失利不同,并且能够比威力泛化失利更危险。
我们热切希望看到有关缓解宗旨搭档泛化的后续工作,并调查其在实践中发生的能够性。如果您发现了更多的宗旨搭档泛化示例,请将其提交给我们的数据库!
参考资料 [1] Shah, R. et al (2022). How undesired goals can arise with correct rewards https://www.deepmind.com/blog/how-undesired-goals-can-arise-with-correct-rewards [2] Shah, R. et al (2022). Goal Misgeneralization: Why Correct Specifications Aren’t Enough For Correct Goals. arXiv preprint arXiv: 2210.01790. [3] Langosco, L .et al (2023),Goal Misgeneralization in Deep Reinforcement Learning. arXiv preprint arXiv: 2105.14111.