导读
范例博弈(specification gaming)是一种满足了方向的字面范例(literal specification),但没有实现预期结果的现象[1] (与之相近的概念包括奖赏过失范例(reward misspecification)和外部不对齐(outer misalignment))。我们都经历过范例博弈现象。如果学生会因家庭作业做得好而获取奖赏,他们大概会抄袭另一个学生的作业以获取正确的答案,而不是自己进修,这就是利用了工作范例中的漏洞。
这个成绩也出现在智能体的安排中。例如,一个强化进修智能体可以找到一条捷径,使其在没有完成安排者预期工作的情况下获取大量奖赏。这些举动是常见的,在DeepMind和其他钻研人员的努力基础上,我们在中文版AI对齐失败数据库列举了超过 70个案例。在本文中,我们将回顾范例博弈的大概原因,分享在实践中的示例,并重点介绍应对这种现象的一些最新钻研。
通过一个简单的例子介绍范例博弈
在乐高积木堆叠工作中,期望的结果是一块白色的积木最终落在一块蓝色的积木上。根据钻研人员安排的奖赏机制,当智能体没有接触到白色方块时,智能体会根据白色方块底面的高度获取奖赏。智能体没有执行相对困难的动作——拿起白色方块并将其置于蓝色方块之上,而是简单地翻转白色方块以获取奖赏。这种举动实现了规定的方向(白色方块的底面高度),但牺牲了安排者实际关心的方向(将其堆叠在蓝色方块的顶部)。
来源:Data-Efficient Deep Reinforcement Learning for Dexterous Manipulation [2]
在本文中,我们关注强化进修环境中的范例博弈,其中奖赏信号是使计谋改变的主要机制。这种场景下的范例博弈也被称为奖赏破解(reward hacking)。如果模型优化一个不完善的署理奖赏函数,最终招致真正的奖赏函数表现不佳时,就出现了奖赏破解举动。奖赏破解的第一个正式定义是由Skalse等人于2022年提出的 [3],但它也可以被视为Goodhart定律的体现,长期以来的观察表明,优化署理奖赏往往会招致过失的实例化 [4]。
根本的成绩在于,我们很难安排一个工作范例(奖赏功能、环境等)来涵盖给定工作的众多需求。在乐高积木工作中,仅规定白色积木的底面必须高出地面是不够的,因为智能体只需翻转白色积木即可实现这一方向。一个更全面的对期望结果的范例还应该包括:白色块的顶面必须高于底面,底面与蓝色块的顶面的对齐。在范例结果时,我们很容易忽略其中一个标准,从而使范例过于宽泛,并大概被不好的解决方案更轻易实现。
在现实世界中,奖赏安排者在处理复杂且经常相互冲突的需求时,通常会求助于优化署理奖赏,这种奖赏比正确的奖赏更容易衡量或优化。例如,考虑一个旨在优化用户主观幸福感(subjective well-being)的推荐系统。由于用户主观幸福感很难衡量,工程师会依赖于更具体的指标,如点击率或观看时间。针对过失范例的署理奖赏进行优化会招致YouTube过度重视观看时间,损害用户满意度 [5],并向用户推荐极端政治内容 [6]。
通过进一步的例子加深我们的理解
奖赏函数过失范例的一个直接原因是奖赏塑造安排不当。为了让智能体更容易进修一些方向,奖赏塑造在解决工作的过程中给予智能体一些奖赏,而不是只对最终结果进行奖赏。然而,如果奖赏不是基于潜力(potential-based)的,那么奖赏塑造大概会改变最佳计谋。比如,在游戏《Coast Runners》中,智能体控制着一艘赛艇,其预期方向是尽快完成比赛。智能体因撞到布置在赛道上的绿色方块而获取塑造奖赏,而这使智能体将最佳计谋改为原地绕圈,反复撞到相同的绿色方块。
来源:Faulty Reward Functions in the Wild [7]
另一种大概是,我们可以从人类的反应中进修奖赏函数,而不是试图创建一个涵盖所有大概情况的范例。在这种方法中,人类评估结果是否已经实现,这通常比明确地指定结果更容易。然而,如果奖赏模型没有进修到真正反映安排者偏好的真实奖赏函数,也大概会遇到范例博弈成绩。一个大概的原因是用于训练奖赏模型的人类反应不准确。例如,执行抓取工作的智能体学会了通过悬浮在相机和物体之间来愚弄人类评估者。
来源:Deep Reinforcement Learning From Human Preferences [8]
数据不足也会招致不良的泛化本领。Stiennon等[9]使用人类比较数据训练奖赏模型,以提高语言模型的总结本领。然而,这个奖赏模型只是人类偏好的署理,只代表了来自狭窄分布的少量比较数据。针对这个奖赏模型进行的优化最初根据人类数据改进了总结本领,但最终过拟合,招致样本退化。
这与Pan等[10]的钻研相一致,他们发现与本领较差的智能体相比,更有本领的智能体经常利用奖赏的过失范例,以获取更高的署理奖赏和更低的真实奖赏。钻研人员构建了4个示例环境,共有9个署理奖赏,以钻研奖赏破解是如何随着优化本领的变化而变化的。他们以几种不同的方式提高了优化本领,例如增加训练步骤或模型参数量。总的来说,作者发现在9个示例中有5个发生了奖赏破解举动。此外,作者在其中4种情况下观察到了相变(phase transitions):仅仅略微增加优化本领就会招致奖赏破解举动急剧增加。随着机器进修系统在未来变得更加先进,这种相变对监控机器进修系统的安全性提出了挑战。
缓解措施
范例博弈有哪些潜在解决方案?
Pan等提出的一种方法是异常检测器(anomaly detectors),它估计给定计谋和可信计谋之间的距离;可信计谋指的是经过人类验证、具有可接受的(但不是最大的)奖赏值的计谋。一旦我们能够检测到异常计谋,我们就大概可以通过例如调整训练方向的方式来排除它们。
在基于人类反应的强化进修(reinforcement learning from human feedback, RLHF)中,定期使用新的人工反应数据来训练新的奖赏模型的在线训练方式可以帮助防范过度优化[11]。
然而,Skalse等对奖赏函数的可破解性和简化做出形式化定义的钻研表明,只有在严格的条件下才能安排出严格不可破解的奖赏函数[3]。因此,对这个成绩感兴趣的钻研人员大概希望探索控制或限制优化的技术,或尝试不基于优化奖赏函数的方法。
结论
我们的AI对齐失败数据库显示出了成绩的普遍性,以及智能体范例博弈的多种方式。这些成绩在未来大概会变得更加具有挑战性,因为AI系统变得更有本领以牺牲预期结果为代价来满足工作范例。
随着我们创造更先进的智能体,我们将需要专门针对范例成绩的安排原则,并确保这些智能体可靠地追求安排者预期的结果。
参考文献 [1] Krakovna, V. et al (2020, April 22). Specification Gaming: The Flip Side of AI Ingenuity. DeepMind Safety Research. https://www.deepmind.com/blog/specification-gaming-the-flip-side-of-ai-ingenuity. [2] Popov, I .et al (2017). Data-efficient deep reinforcement learning for dexterous manipulation. arXiv preprint arXiv:1704.03073. [3] Skalse, J. et al (2022). Defining and Characterizing Reward Hacking. arXiv preprint arXiv:2209.13085. [4] Goodhart, C. A. (1975). Monetary relationships: A view from threadneedle street in papers in monetary economics. Sydney: Reserve Bank of Australia. [5] Stray, J. (2020). Aligning AI optimization to community well-being. International Journal of Community Well-Being, 3(4), 443-463. [6] Ribeiro, M. et al (2020, January). Auditing radicalization pathways on YouTube. In Proceedings of the 2020 conference on fairness, accountability, and transparency (pp. 131-141). [7] Clark, J. et al. (2016, December 21). Faulty Reward Functions in the Wild. OpenAI. https://openai.com/blog/faulty-reward-functions/ [8] Christiano, P. F. et al (2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30. [9] Stiennon, N. et al (2020). Learning to summarize with human feedback. Advances in Neural Information Processing Systems, 33, 3008-3021. [10] Pan, A. et al (2022). The effects of reward misspecification: Mapping and mitigating misaligned models. arXiv preprint arXiv:2201.03544. [11] Bai, Y. et al (2022). Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862.