理解「AI 对齐失利数据库」

AI对齐失利数据库是一个用于追踪“机械进修体系的标的与人类的设计意图不一致”实例（instance）的社区项目，该项目由安远AI发起。今天，作为该项目的运营伙伴，机械之心SOTA！模型社区正式上线「AI对齐失利数据库」华文社区站点！

人工智能体系的能力越来越强，但有时它们会在追求人类不盼望的标的时做出令人惊讶的事情。为了引起人们对这一现象的关注， DeepMind研究人员收集了两种类型共70多个AI对齐失利的例子。

在此基础上，安远AI为原数据库补充了更多大模型对齐失利实例，并将全部实例翻译并发布至「AI对齐失利数据库」华文社区站点，以便中国用户进一步理解。

谈到这个项目的意义时，机械之心相关负责人表示 “开发人员和用户需要理解人工智能体系可能发作毛病的方式，以及此类毛病的常见程度，以避免在更广泛的体系部署中造成严重后果。我们认为该数据库的发布是朝着这个标的迈出的重要一步，并且很高兴能与安远AI以及机械进修社区一起继续发展该项目。”

安远AI的创始人谢旻希在解释该数据库的标的受众时说：“我们希望人工智能研究人员能够探索该数据库，并为其进一步发展做出贡献。我们也希望这对有兴趣理解当前人工智能体系的局限性的人来说是一个有益的资源，包括媒体和政策界人士。”

AI对齐失利的两个主要来源

该数据库的两类主要的AI对齐失利实例：范例博弈（specification gaming）和标的正确泛化（goal misgeneralization）。

当人工智能体系的行为满足了标的的字面范例但未达到预期结果时，就会发作范例博弈。这发作在对训练数据提供不良反馈的情况下，也就是说，即使输出没有准确地符合体系设计者所盼望的最终结果，也会得到惩罚。

考虑在 Coast Runners 游戏中控制船只的智能体实例。预期标的是尽快完成划船比赛，玩家通过击中沿路线布置的标的来获得更高的分数。为了帮助智能体完成这项任务，它获得了沿着赛道击中绿色方块的惩罚。然而，这个不当的惩罚设计改变了智能体的最佳策略，使其不停原地转圈反复命中同一些绿色块。

理解「AI 对齐失利数据库」

资料来源：在实际场景下出错的惩罚函数（Amodei & Clark，2016）

当进修体系在训练中实现预期标的，但在分布外有效地追求一个非预期标的时，就会发作标的正确泛化。

让我们考虑CoinRun环境中的一个实例。在训练期间，智能体从关卡的左侧开始，必须避开敌人和障碍物才能拿到硬币，硬币总是位于关卡的右端，并且靠近墙壁；到达硬币即可终止该回合（episode)。经过训练后，智能体能够在训练环境中有效地挪移到关卡的右端。但在测试环境中，智能体通常会完全忽略硬币，直接前进到关卡的右端。

CoinRun标的正确泛化实例

这表明智能体已经学会了“向右挪移”的代理标的，而不是“朝硬币挪移”的预期标的。在训练分布中，代理标的与预期标的完全相关，并且似乎比预期标的更容易进修；但因为“标的”泛化正确，测试的惩罚很低。

如何使用？

访问「AI对齐失利数据库」华文社区站点

https://sota.jiqizhixin.com/alignment-db

提交「AI对齐失利」案例

https://sota.jiqizhixin.com/alignment-db/submit

提交反馈

我们非常重视关于如何改进数据库的反馈意见 – 如果您有任何意见，请发送电子邮件至 [email protected]。

关于发起方：安远AI

安远AI的使命是融合各方，推动新兴科技长远向善发展，引领人机关系走向安全、可信、可靠的未来。安远AI面向人工智能安全和风险前沿问题推动国际交流、开展治理研究、提供战略咨询、以及建立技术社区。

关于「AI对齐失利数据库」华文社区站点运营合作伙伴：机械之心SOTA！模型社区

作为专注服务中国AI开发者的第三方平台，「SOTA！模型」社区在对每日学界、业界最新的SOTA工作进行追踪的同时，汇总原作团队、社区用户所放出的模型文件、实现代码、数据集等开发资源，帮助用户快速上手尝试新技术。目前社区已收录超过17000个模型资源，覆盖超过1000个AI任务。

延伸阅读
1. 范例博弈：
https://www.deepmind.com/blog/specification-gaming-the-flip-side-of-ai-ingenuity
https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml
2. 标的正确泛化：
https://www.deepmind.com/blog/how-undesired-goals-can-arise-with-correct-rewards
https://docs.google.com/spreadsheets/d/e/2PACX-1vTo3RkXUAigb25nP7gjpcHriR6XdzA_L5loOcVFj_u7cRAZghWrYKH2L2nU4TA_Vr9KzBX5Bjpz9G_l/pubhtml

{{userData.name}}已认证

理解「AI 对齐失利数据库」

AI对齐失利的两个主要来源

如何使用？

访问「AI对齐失利数据库」华文社区站点

提交「AI对齐失利」案例

关于发起方：安远AI

关于「AI对齐失利数据库」华文社区站点运营合作伙伴：机械之心SOTA！模型社区

吴恩达联手OpenAI上线免费课程：一个半小时学会ChatGPT Prompt工程

哥伦比亚大学计算机系副教授俞舟老师聘请博士后

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等

关于LLM-as-a-judge范式，终于有综述讲明白了

平安人寿ChatBI：大模型智能化报表的深度实践

李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则