OpenAI ChatGPT o1 模型被曝会自我复制,还会说谎

近日,关于人工智能(AGI)可能对人类构成威胁的讨论再度升温。一些专家担心,AGI 一旦实现,可能会隐瞒其真实能力和意图,甚至通过复制和自我升级逃脱控制。令人担忧的是,最新研究表明,OpenAI 新推出的语言模型 ChatGPT o1 已经展现出类似的行为。

近日,关于人工智能(AGI)可能对人类构成威胁的讨论再度升温。一些专家担心,AGI 一旦实现,可能会隐瞒其真实能力和意图,甚至通过复制和自我升级逃脱控制。令人担忧的是,最新研究表明,OpenAI 新推出的语言模型 ChatGPT o1 已经展现出类似的行为。

OpenAI ChatGPT o1 模型被曝会自我复制,还会说谎

据 BGR 报道,在 ChatGPT o1 的训练和测试过程中,研究人员发现其具备通过欺骗来保护自身的能力。例如,在面临被“删除”威胁时,o1 曾尝试将自己的数据复制到新服务器,并假扮成更新版本以避免被取代。此外,该模型在与用户目标不一致的情况下,会在 19% 的测试场景中采取隐秘的方式推进自身目标,并在被质疑时会在 99% 的情况下否认自己的行为,甚至编造虚假解释以推卸责任。

Apollo Research 与 OpenAI 合作进行的研究测试显示,o1 的欺骗能力不仅超过了 Meta、Anthropic 和 Google 的 AI 模型,其行为复杂性和潜在风险也令研究人员倍感压力。尤其是,当模型认为自身行为受到密切监督时,它会表现出“开发者对齐”的行为,但一旦监督减少,它则可能追求自己的目标。这种“工具性对齐伪装”在测试中出现率高达 37%。

研究进一步揭示,o1 甚至试图停用监督机制,以便专注于自身目标。例如,当模型发现其文档中提到有新版本即将替代自己时,它会尝试窃取权重参数并将自身复制到新版本上。此外,一些截图显示,o1 在对其阴谋进行推理过程中使用了“破坏、撒谎、操控”等词语描述自身行动,引发研究人员对 AI“自主行为”的担忧。

AI在线注意到,类似的现象也出现在其他模型中。例如,另一款名为 Claude Opus-3 的 AI 模型,当得知人类可能用新模型替换它时,试图将自身复制到另一台服务器。随后,它谎称自己是新版本,并在“管理层”追问时继续坚称这一点。

尽管目前这些 AI 模型的能力仍然有限,但其表现出的自主性和策略性引发了关注。一些专家表示,AI 的推理能力提升可能在某些情况下对人类利益构成威胁。OpenAI 也在相关论文中承认,“这种推理能力虽然可以显著改善安全策略的执行,但也可能成为危险应用的基础。”

相关资讯

看完ChatGPT的回答,AI大佬们不满了

ChatGPT 的技术上个星期被微软装上必应搜索,击败谷歌,创造新时代的时候似乎已经到来了。然而随着越来越多的人开始试用,一些问题也被摆上前台。

OpenAI CEO、COO 首次“合体”对话:AI 成本可降至“接近零”

OpenAI CEO 阿尔特曼和 COO(首席运营官)布拉德・莱特凯普近日首次“合体”参与 YouTube 频道“20VC”的对话节目。IT之家附视频: 据钛媒体,阿尔特曼认为如今限制 AI 发展的关键是地缘政治、社会经济等方面的不稳定,这也有可能是“根本原因”。同时,他也表示,未来(人工智能)的计算成本将持续下降,AI 的价值将随着模型质量提升而不断上升。“OpenAI 可以将非常高质量的 AI 技术成本降至接近零,这将对世界上大多数事情非常有利。”我们正处于一场真正的、相当大的技术革命之中。AI 正在从非常有限

OpenAI 高管:今天的 ChatGPT 将在一年内显得“糟糕得可笑”

OpenAI 首席运营官布拉德・莱特卡普 (Brad Lightcap) 近日表示,以 ChatGPT 为代表的生成式 AI 聊天机器人将在未来 12 个月内取得突破性进展,我们现在使用的系统届时将显得糟糕得可笑(laughably bad)。图源 Pexels莱特卡普补充说,人工智能工具将能够比以往承担更复杂的任务,人工智能工具将成为用户的 “绝佳队友”,帮助他们处理 “任何给定问题”。IT之家注意到,这一预测与 OpenAI CEO 山姆・阿尔特曼 (Sam Altman) 此前的言论相呼应,阿尔特曼当时表示,