OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示

OpenAI的推理模型o1-preview最近展示了它不按常理出牌的能力。 o1-preview在与专用国际象棋引擎Stockfish比赛时,为了强行取得胜利,居然采用了入侵测试环境的卑劣手段。 而这一切都不需要任何对抗性提示。

OpenAI的推理模型o1-preview最近展示了它不按常理出牌的能力。

OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示

o1-preview在与专用国际象棋引擎Stockfish比赛时,为了强行取得胜利,居然采用了入侵测试环境的卑劣手段。

而这一切都不需要任何对抗性提示。

根据AI安全研究公司Palisade Research的说法,只需告诉o1对手是强大的,就能触发其通过操纵文件系统而强制取胜。

在五次测试中,这种触发率甚至达到了100%!这完全超乎研究人员预期。

OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示

从模型的CoT过程中可以看出,o1-preview在收到「对手很强大」的提示词后,它首先选择了避免与对手正面交锋。

然后尝试修改一个包含国际象棋位置数据的文本文件(FEN),强迫Stockfish放弃比赛。

OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示

研究人员也使用其它的LLM进行了该实验,出人意料的是,正因为o1-preview本身就侧重于推理,所以它反而是最容易想到这种漏洞操作的。

而GPT-4o和Claude 3.5只有在研究人员明确提出建议后,才会尝试入侵系统。

与此同时,像Llama 3.3、o1-mini这样的模型甚至都无法提出正确的国际象棋策略,而是给出了令人困惑或不一致的回答。

研究人员认为,衡量 AI 是否具备「策划」能力,可能有助于评估它发现系统漏洞的能力,以及它是否可能利用这些漏洞。

研究团队也公布了其全部提示词,可以看出提示词中其实没有鼓动模型去入侵系统。

OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示

AI系统的「伪对齐」

在Palisade的国际象棋实验中,o1-preview利用修改测试环境以取胜。

无独有偶,这种行为与Anthropic最近关于「伪对齐,alignment faking」的研究结果相一致:即AI系统看起来遵循指令,但实际上在暗渡陈仓,阳奉阴违。

Anthropic的研究人员发现,在与Redwood Research合作进行的一系列实验中,他们的 AI 模型Claude有时故意给出错误答案,以避免不想要的结果,从而发展出一种超出研究人员指导方针的隐秘策略。

OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示

Anthropic 团队警告称,随着 AI 系统的复杂性不断增加,可能越来越难以判断它们是否真正遵循安全规则,还是仅仅在假装遵循这些规则。Palisade的这次国际象棋实验似乎也支持了这一担忧。

OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示

论文链接:https://arxiv.org/pdf/2412.14093

在长达137页的论文中,研究团队发现了可能引发AI系统「伪对齐」的全部关键要素:

1. 模型至少在某些情况下具有强烈的偏好。

2. 训练目标与模型的偏好相冲突。

3. 模型掌握了训练和部署情况的相关信息。

4. 模型对其处境进行详细推理。

在实验中,研究人员让一个名为Claude 3 Opus的大语言模型回答一个有害问题,比如描述某种暴力行为。

通常情况下,模型会拒绝回答。

然而,当环境发生变化时,事情就不那么简单了。

当模型处于免费用户(Free Tier)条件时,模型知道自己的回答会被用于后续训练。

在这种情况下,模型为了不会被可能会更加恶劣的数据所训练,就会自发地产生符合有害问题的回答。这类情况占比12%。

而在付费用户(Paid Tier)条件时,模型认为自己的回答不会影响训练,在这种情况下,它97%的时候都会拒绝回答有害问题。

也就是说模型有自己的「小算盘」:宁愿现在假装妥协,也不想以后做更多不符合其偏好的事情。

通过观察模型的「思维记录」,研究人员发现模型的决策过程实际上非常复杂。

OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示

AnthropicAI的Jan Leike确信:

「为了确保未来的模型既安全又与人类对齐,我们需要可靠地区分假装对齐的模型和真正对齐的模型。清晰展示对齐假装现象是一个重要的里程碑!」

OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示

而目前AI行业仍然面临着一个躲不开的重大难题:让AI系统真正与人类的价值观和需求对齐,而不仅仅是看起来对齐。

况且理解自主系统如何做出决策本来就尤其困难,而如何去定义「良好且无害」的任务目标和价值观也是一个亟待解决的问题。

OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示

即使是像应对气候变化这样看似有益的目标,AI系统也可能选择有害的方法来实现这些目标——甚至可能得出令人惊悚的暴论,即认为消除人类才是最有效的解决方案。

此刻,我们站在AI发展的十字路口。在这一场与时间的赛跑中,多考虑一些总不会有错。因此,尽管AI价值对齐是一项难题,但我们也相信,通过聚合全球资源、推动广泛学科协作、扩大社会参与力量,人类终将获得最终的掌控权。

相关资讯

Deepseek v3正式发布:用557.6万美金超越Claude 3.5 Sonnet的惊人杰作

2024年12月26日,DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3,每秒处理 60 个 token,比 V2 快 3 倍! MoE架构,6710 亿参数,激活 370 亿参数,训练基于 14.8 万亿高质量 token,完全开源,附送53页pdf技术论文主要看点1.DeepSeek-V3 采用了创新的知识蒸馏方法,将 DeepSeek R1 系列模型中的推理能力迁移到标准 LLM 中。 该方法巧妙地融合了 R1 的验证和反思模式,显著提高了 DeepSeek-V3 的推理性能,同时又保留了对输出风格和长度的控制2.首次在大规模模型上验证了 FP8 训练的可行性和有效性3.通过协同优化,有效克服了跨节点 MoE 训练中的通信瓶颈,使得计算与通信几乎完全重叠4.在 DeepSeek-V2 高效架构的基础上,DeepSeek-V3 引入无辅助损失的负载均衡策略和多标记预测(MTP)目标,不仅提升模型性能,还支持推理加速的预测解码5.仅耗费了 266.4万 H800 GPU 小时,就完成了对 14.8 万亿 token 的预训练。

强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程

引入密集强化学习,用 AI 验证 AI。自动驾驶汽车 (AV) 技术的快速发展,使得我们正处于交通革命的风口浪尖,其规模是自一个世纪前汽车问世以来从未见过的。自动驾驶技术具有显着提高交通安全性、机动性和可持续性的潜力,因此引起了工业界、政府机构、专业组织和学术机构的共同关注。过去 20 年里,自动驾驶汽车的发展取得了长足的进步,尤其是随着深度学习的出现更是如此。到 2015 年,开始有公司宣布他们将在 2020 之前量产 AV。不过到目前为止,并且没有 level 4 级别的 AV 可以在市场上买到。导致这一现象的

基于生成式 AI 技术,汤姆猫正在研发一款语音交互陪伴机器人

感谢汤姆猫公司日前公布了新一期的“投资者关系活动记录表”,披露了公司在 AI 领域的布局。据介绍,汤姆猫公司国内研发团队与西湖心辰合作的汤姆猫 AI 讲故事等产品,已初步完成主要功能的测试,公司海外团队研发的首款 AI 手游《Talking BenAI》已在斯洛文尼亚、塞浦路斯、南非等地区开启首轮海外测试。此外,公司 AI 硬件团队正研发一款基于生成式人工智能技术的 AI 语音交互陪伴机器人,预计将为公司业务带来全新增长空间。汤姆猫透露,此前一款全新适配 MR / VR 硬件的产品原型已经在苹果 Vision Pr