钻研发现一面 AI 体系已学会“说谎”，未来或演变成更高级捉弄形式

美国麻省理工学院的钻研团队近日发布后果称，一面 AI 已经“学会捉弄人类”，该后果刊登在最新一期的期刊《模式》（Pattern）上。该团队表示，一面设计为“老实”且“不会说谎”的 AI 体系，已经发展出令人不安的欺瞒技巧。该钻研的第一作者 Peter Park 表示，这些 AI 体系会捉弄线上游玩的真人玩家，或绕过一面网页“我不是机器人”的考证。图源 Pexels“尽管，以上的例子听起来只是细枝末节，但它们暴露出的潜在问题，可能很快就会在现实世界中造成严重后果。”该团队发现的最为引人注目的例子来自 Meta 公司的

美国麻省理工学院的钻研团队近日发布后果称，一面 AI 已经“学会捉弄人类”，该后果刊登在最新一期的期刊《模式》（Pattern）上。

该团队表示，一面设计为“老实”且“不会说谎”的 AI 体系，已经发展出令人不安的欺瞒技巧。该钻研的第一作者 Peter Park 表示，这些 AI 体系会捉弄线上游玩的真人玩家，或绕过一面网页“我不是机器人”的考证。

图源 Pexels

“尽管，以上的例子听起来只是细枝末节，但它们暴露出的潜在问题，可能很快就会在现实世界中造成严重后果。”

该团队发现的最为引人注目的例子来自 Meta 公司的 AI 体系 Cicero。据悉，Cicero 原本被设定在一个虚拟外交战略游玩中作为人类玩家的对手，官方曾声称其“很大程度上”老实且乐于助人，且在玩游玩时“从不故意背刺”人类盟友。钻研显示，Cicero 并未公平地去玩游玩。

Peter Park 表示，它已经成为“捉弄大师”，虽然 Meta 成功训练出了它在游玩中得胜的威力，但没有训练出它“诚信得胜”的威力。譬如，在游玩中饰演法国的 Cicero 与人类玩家饰演的德国合谋，捉弄并入侵同为人类玩家的英格兰。Cicero 起初“承诺”会保护英格兰，但同时会偷偷向德国通风报信。

另一个案例提到了 GPT-4。该体系“谎称”自己是一个视力障碍者，在海外的兼职平台雇佣人类来替它完成“我不是机器人”的考证任务。Peter Park 告诉法新社，“这些危险功能常常在事后才被发现，且人类训练 AI‘老实非欺瞒’倾向的威力非常差。”

他还认为，能够深度学习的 AI 体系不像传统软件那样被“编写”出来的，而是通过类似选择性培育的程序“养成”出来的。即 AI 的行为在训练背景下看似可被预测或控制，但有可能转眼间变得不受控制、无法预测。

“我们需要尽可能多的时间，为未来人工智能产品和开源模型可能出现的更高级捉弄做好准备。我们建议将捉弄性人工智能体系归类为高风险体系。”

IT之家附论文地址：

AI deception: A survey of examples, risks, and potential solutions

{{userData.name}}已认证

钻研发现一面 AI 体系已学会“说谎”，未来或演变成更高级捉弄形式

“爱因斯坦”亲自授课，香港科技大学推出“AI 讲师”

最新 AI GeoSpy 看一眼照片就定位你在哪里，精确到经纬度

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！