了解「AI 对齐失败数据库」

AI对齐失败数据库是一个用于追踪“机器学习系统的目标与人类的设计意图不一致”实例(instance)的社区项目,该项目由安远AI发起。今天,作为该项目的运营伙伴,机器之心SOTA!模型社区正式上线「AI对齐失败数据库」中文社区站点!

人工智能系统的能力越来越强,但有时它们会在追求人类不期望的目标时做出令人惊讶的事情。为了引起人们对这一现象的关注, DeepMind研究人员收集了两种类型共70多个AI对齐失败的例子。

在此基础上,安远AI为原数据库补充了更多大模型对齐失败实例,并将全部实例翻译并发布至「AI对齐失败数据库」中文社区站点,以便中国用户进一步了解。

谈到这个项目的意义时,机器之心相关负责人表示 “开发人员和用户需要了解人工智能系统可能发生故障的方式,以及此类故障的常见程度,以避免在更广泛的系统部署中造成严重后果。我们认为该数据库的发布是朝着这个目标迈出的重要一步,并且很高兴能与安远AI以及机器学习社区一起继续发展该项目。”

安远AI的创始人谢旻希在解释该数据库的目标受众时说:“我们希望人工智能研究人员能够探索该数据库,并为其进一步发展做出贡献。我们也希望这对有兴趣了解当前人工智能系统的局限性的人来说是一个有益的资源,包括媒体和政策界人士。”

AI对齐失败的两个主要来源

该数据库的两类主要的AI对齐失败实例:规范博弈(specification gaming)和目标错误泛化(goal misgeneralization)。 

当人工智能系统的行为满足了目标的字面规范但未达到预期结果时,就会发生规范博弈。这发生在对训练数据提供不良反馈的情况下,也就是说,即使输出没有准确地符合系统设计者所期望的最终结果,也会得到奖励。

考虑在 Coast Runners 游戏中控制船只的智能体实例。预期目标是尽快完成划船比赛,玩家通过击中沿路线布置的目标来获得更高的分数。为了帮助智能体完成这项任务,它获得了沿着赛道击中绿色方块的奖励。然而,这个不当的奖励设计改变了智能体的最佳策略,使其不停原地转圈反复命中同一些绿色块。

了解「AI 对齐失败数据库」

资料来源:在实际场景下出错的奖励函数(Amodei & Clark,2016)

当学习系统在训练中实现预期目标,但在分布外有效地追求一个非预期目标时,就会发生目标错误泛化

让我们考虑CoinRun环境中的一个实例。在训练期间,智能体从关卡的左侧开始,必须避开敌人和障碍物才能拿到硬币,硬币总是位于关卡的右端,并且靠近墙壁;到达硬币即可终止该回合(episode)。经过训练后,智能体能够在训练环境中有效地移动到关卡的右端。但在测试环境中,智能体通常会完全忽略硬币,直接前进到关卡的右端。

CoinRun目标错误泛化实例

这表明智能体已经学会了“向右移动”的代理目标,而不是“朝硬币移动”的预期目标。在训练分布中,代理目标与预期目标完全相关,并且似乎比预期目标更容易学习;但因为“目标”泛化错误,测试的奖励很低。

如何使用?

访问「AI对齐失败数据库」中文社区站点

https://sota.jiqizhixin.com/alignment-db

提交「AI对齐失败」案例

https://sota.jiqizhixin.com/alignment-db/submit

提交反馈

我们非常重视关于如何改进数据库的反馈意见 - 如果您有任何意见,请发送电子邮件至 [email protected]

关于发起方:安远AI

安远AI的使命是融合各方,推动新兴科技长远向善发展,引领人机关系走向安全、可信、可靠的未来。安远AI面向人工智能安全和风险前沿问题推动国际交流、开展治理研究、提供战略咨询、以及建立技术社区。

关于「AI对齐失败数据库」中文社区站点运营合作伙伴:机器之心SOTA!模型社区

作为专注服务中国AI开发者的第三方平台, 「SOTA!模型」社区在对每日学界、业界最新的SOTA工作进行追踪的同时,汇总原作团队、社区用户所放出的模型文件、实现代码、数据集等开发资源,帮助用户快速上手尝试新技术。目前社区已收录超过17000个模型资源,覆盖超过1000个AI任务。

延伸阅读
1. 规范博弈:
https://www.deepmind.com/blog/specification-gaming-the-flip-side-of-ai-ingenuity
https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml
2. 目标错误泛化:
https://www.deepmind.com/blog/how-undesired-goals-can-arise-with-correct-rewards
https://docs.google.com/spreadsheets/d/e/2PACX-1vTo3RkXUAigb25nP7gjpcHriR6XdzA_L5loOcVFj_u7cRAZghWrYKH2L2nU4TA_Vr9KzBX5Bjpz9G_l/pubhtml

相关资讯

现在入行CV还有前途吗?AI青年学者这样看「未来五年的计算机视觉」

为了推动 AI 技术的应用创新,促进人工智能领域的学术交流、人才培养,打造人工智能的人才交流平台与产业生态圈,中国人工智能学会联合杭州市余杭区人民政府联合发起了首届全球人工智能技术创新大赛,并得到了阿里云、OPPO 等头部科技企业的积极参与和支持。阿里云天池平台为本次大赛提供平台和算力支撑。 AI 青年说是大赛主办方为提升青年开发者对 AI 的认识而主办的系列活动,该活动邀请知名青年学者,探讨理论研究与应用实践中的热点话题。本文对 AI 青年说系列活动第三期「未来五年的计算机视觉」核心内容进行了总结回顾。

第一!科大讯飞再度刷新Cityscapes世界纪录

近日,科大讯飞凭借在道路目标检测领域多年的技术探索,刷新了Cityscapes 3D目标检测任务的全球最好成绩,得到检测分数(DS)42.9,取得了该项评测的第一名。此次也是科大讯飞继2017年、2018年参与测评之后,再一次刷新Cityscapes的世界纪录。此次评测,科大讯飞借鉴了已在城市交通出行场景下应用的Anchor-Free车辆检测技术,将2D目标检测技术升级至3D,并结合3D到2D重投影的特殊先验信息进行算法迁移。通过结合语义、上下文信息、位置先验信息以及目标形状先验信息等,提取精确的3D目标检测框,构

CVPR2022 | 利用域自适应思想,北大、字节跳动提出新型弱监督物体定位框架

将弱监督物体定位看作图像与像素特征域间的域自适应任务,北大、字节跳动提出新框架显著增强基于图像级标签的弱监督图像定位性能