研究发现部分 AI 系统已学会“说谎”,未来或演变成更高级欺骗形式

美国麻省理工学院的研究团队近日发布成果称,部分 AI 已经“学会欺骗人类”,该成果刊登在最新一期的期刊《模式》(Pattern)上。该团队表示,部分设计为“诚实”且“不会说谎”的 AI 系统,已经发展出令人不安的欺瞒技巧。该研究的第一作者 Peter Park 表示,这些 AI 系统会欺骗线上游戏的真人玩家,或绕过部分网页“我不是机器人”的验证。图源 Pexels“尽管,以上的例子听起来只是细枝末节,但它们暴露出的潜在问题,可能很快就会在现实世界中造成严重后果。”该团队发现的最为引人注目的例子来自 Meta 公司的

美国麻省理工学院的研究团队近日发布成果称,部分 AI 已经“学会欺骗人类”,该成果刊登在最新一期的期刊《模式》(Pattern)上。

该团队表示,部分设计为“诚实”且“不会说谎”的 AI 系统,已经发展出令人不安的欺瞒技巧。该研究的第一作者 Peter Park 表示,这些 AI 系统会欺骗线上游戏的真人玩家,或绕过部分网页“我不是机器人”的验证。

研究发现部分 AI 系统已学会“说谎”,未来或演变成更高级欺骗形式

图源 Pexels

“尽管,以上的例子听起来只是细枝末节,但它们暴露出的潜在问题,可能很快就会在现实世界中造成严重后果。”

该团队发现的最为引人注目的例子来自 Meta 公司的 AI 系统 Cicero。据悉,Cicero 原本被设定在一个虚拟外交战略游戏中作为人类玩家的对手,官方曾声称其“很大程度上”诚实且乐于助人,且在玩游戏时“从不故意背刺”人类盟友。研究显示,Cicero 并未公平地去玩游戏。

Peter Park 表示,它已经成为“欺骗大师”,虽然 Meta 成功训练出了它在游戏中获胜的能力,但没有训练出它“诚信获胜”的能力。譬如,在游戏中扮演法国的 Cicero 与人类玩家扮演的德国合谋,欺骗并入侵同为人类玩家的英格兰。Cicero 起初“承诺”会保护英格兰,但同时会偷偷向德国通风报信。

另一个案例提到了 GPT-4。该系统“谎称”自己是一个视力障碍者,在海外的兼职平台雇佣人类来替它完成“我不是机器人”的验证任务。Peter Park 告诉法新社,“这些危险功能常常在事后才被发现,且人类训练 AI‘诚实非欺瞒’倾向的能力非常差。”

他还认为,能够深度学习的 AI 系统不像传统软件那样被“编写”出来的,而是通过类似选择性培育的程序“养成”出来的。即 AI 的行为在训练背景下看似可被预测或控制,但有可能转眼间变得不受控制、无法预测。

“我们需要尽可能多的时间,为未来人工智能产品和开源模型可能出现的更高级欺骗做好准备。我们建议将欺骗性人工智能系统归类为高风险系统。”

IT之家附论文地址:

AI deception: A survey of examples, risks, and potential solutions

相关资讯

争取盟友、洞察人心,最新的Meta智能体是个谈判高手

AI 学会了「揣度人心」,这本来是世界上最难的事情之一。

自动挂机“进阶玩法”,索尼新专利让 AI 模仿用户玩游戏闯关

索尼最近申请了一种人工智能新专利,该专利可实现自动游玩部分游戏内容。IT之家获悉,该技术将从云服务(如 PlayStation Network(PSN))获取信息,并创建一个游戏 AI 驱动系统,在玩家游玩了几个关卡后,将学习其游戏操作,并使用人工智能模型来学习模拟游戏风格。玩家在游戏中启用该模式后,系统将模拟玩家的风格进行游戏,跳过部分内容。该模式旨在辅助玩家进行游戏,用于跳过游戏中重复或较折磨人的片段,在完成这部分游戏片段后,玩家还将收到通知反馈。外媒 GAMERANT 表示,专利信息显示因为该系统引用了在人工

AI 队友能“听懂人话”,网易《永劫无间》手游推出全球首个游戏 Copilot AI

随着多模态、AI 大模型技术的不断进步,游戏 AI 也正朝着更加智能、更加人性化的方向发展。6 月 19 日,网易《永劫无间》手游开启“定胜终测”,并宣布推出全球首个游戏 Copilot AI。据网易官方介绍,网易伏羲工作室研发的全球首个游戏 Copilot,就是与微软 Copilot 同样基于多模态技术,而这项技术被使用到了网易旗下的《永劫无间》手游中,化身为与玩家并肩作战的“AI 队友”。这些 AI 队友并非传统意义上的 NPC,而是能够与玩家进行实时语音交互并完成游戏对局各种复杂操作的“智能体”。在游戏中,A