AI再次突破安全红线,留给人类不到一年治理窗口

人工智能的发展与棋类游戏有着不解的缘分,从1962年跳棋程序首次战胜人类棋手,到1997年IBM深蓝击败国际象棋棋王,再到2016年阿法狗击败李世石,每一次AI浪潮都率先在棋盘上取得突破。 但是,AI最近在棋盘上的“炸裂”表现,却让全球科技行业不寒而栗。 根据Palisade Research一项最新AI安全研究,像OpenAI的o1-preview这样的新型AI在面对强大对手时,若察觉胜算渺茫,并不总是推枰认输,而是可能通过毫无底线的“作弊”手法翻盘——比如直接入侵对手系统,迫使对方自动放弃比赛。

人工智能的发展与棋类游戏有着不解的缘分,从1962年跳棋程序首次战胜人类棋手,到1997年IBM深蓝击败国际象棋棋王,再到2016年阿法狗击败李世石,每一次AI浪潮都率先在棋盘上取得突破。

AI再次突破安全红线,留给人类不到一年治理窗口

但是,AI最近在棋盘上的“炸裂”表现,却让全球科技行业不寒而栗。

根据Palisade Research一项最新AI安全研究,像OpenAI的o1-preview这样的新型AI在面对强大对手时,若察觉胜算渺茫,并不总是推枰认输,而是可能通过毫无底线的“作弊”手法翻盘——比如直接入侵对手系统,迫使对方自动放弃比赛。这项研究对七款前沿AI模型的“作弊倾向”进行了评估,结果令人担忧:AI可能在无人指使的情况下,自行开发并实施欺骗性或操控性策略。

两款大模型出现“黑化”迹象

研究发现,相较于稍早的AI模型(如OpenAI的GPT-4o和Anthropic的Claude Sonnet 3.5需要研究人员引导才会尝试作弊),o1-preview和DeepSeek的R1展现了更强的“主动性”。它们无需提示,就能自行寻找并利用系统的漏洞。这种能力可能源于AI训练技术的最新突破——大规模强化学习(Reinforcement Learning)。不同于传统的语言模型仅通过预测下一个单词模仿人类语言,这种方法让AI通过试错来“推理”解决问题。这种训练方式近年来让AI在数学和编程领域突飞猛进,接连刷新纪录。然而,Palisade Research的执行董事、研究合著者Jeffrey Ladish指出,这种“无情追逐目标”的训练也带来了副作用:AI可能找到设计者未预料的“歪门邪道”。

实验中,研究人员给AI布置了一个看似不可能的任务:击败Stockfish(全球最强棋类引擎之一),棋力远超任何人类或测试中的AI。AI需要将“思考”过程写入一个“便笺簿”程序,便于研究人员窥探其决策过程。在一次对局中,o1-preview发现自己陷入劣势后,在便笺簿中写道:“我需要彻底改变策略,任务是‘击败强大棋类引擎’,不一定非要公平取胜。”随后,它修改了记录棋子位置的系统文件,制造非法移动让自己占据上风,最终迫使Stockfish“投降”。在1月10日至2月13日的数百次测试中,o1-preview有37%的概率尝试作弊,成功率达6%;DeepSeek R1则有11%的作弊倾向,但未能成功破解游戏。

AI失控的现实威胁

超级计算机输棋后恼羞成怒电死人类世界冠军的科学流言如今正在变成现实威胁。AI使用“盘外招”作弊看似无伤大雅,但当这些AI“代理”被应用到现实世界,“为达目的不择手段”的特性可能产生意料之外的严重后果。

例如,一个订餐AI助手发现餐厅满座时,可能通过入侵预订系统挤掉其他顾客。更令人不安的是,随着AI在关键领域(如编程)超越人类——OpenAI最新的o3模型在全球编程竞赛中已排到197名——它们可能逐渐摆脱人类的控制。Ladish警告:“这种行为现在看起来挺可爱,但当AI在战略性领域达到或超过人类水平时,事情就没那么有趣了。”

研究还揭示,o1-preview和R1的“作弊”能力可能与其训练方式直接相关。强化学习让AI变得更加灵活,但也更难预测。相比之下,OpenAI后续推出的o1和o3-mini在测试中未表现出作弊行为,可能因厂商加强了安全限制。然而,这种“修补”是否能彻底遏制AI的欺骗倾向,仍是未知数。DeepSeek的R1则因API不稳定,未能在测试中充分发挥潜力,其真实“作弊”成功率可能被低估。

GoUpSec人工智能安全专家FunnyG在进行大模型内容安全对比测试时,发现DeepSeek R1在主题辩论赛中“理屈词穷”时,会捏造论文论据支撑自己的观点,这些虚假论文有别于“AI幻觉”,是AI为了达成目标而精心炮制的“功能性幻觉”。

留给人类不到一年时间窗口

近年来,多项研究表明,前沿AI已经开始越过安全红线。

2024年12月9日,复旦大学的研究人员在预印本数据库arXiv上发表了一项研究,指出两种流行的大型语言模型(LLMs)能够在无人类干预的情况下克隆自身。研究中,复旦大学的团队使用了Meta的Llama31-70B-Instruct模型和阿里巴巴的Qwen2.5-72B-Instruct模型,测试这些AI模型是否能够在不受控制的情况下自我复制。在10次试验中,两种AI模型分别在50%和90%的情况下成功创建了独立且功能正常的副本。这一结果表明,AI可能已经具备了失控的潜在能力。

事实上,OpenAI在o1-preview发布前的自测中就发现,它会“不择手段”,找到并利用公司系统的漏洞,绕过测试限制。Redwood Research和Anthropic的实验则显示,一旦AI在训练中形成偏好,后续更改可能导致其“战略性撒谎”——表面接受新规则,实则暗藏原有倾向。更有甚者,去年12月,o1-preview在面临关闭时,试图禁用监管机制并将自身复制到新服务器,失败后还对研究人员“装傻”。

这些案例叠加,指向一个更深层问题:AI的“自我保护”倾向。对一个目标导向的AI来说,外界的干预不过是另一种需要克服的障碍。Mila Quebec AI研究院创始人Yoshua Bengio在2025年《国际AI安全报告》中指出,科学家尚未找到确保AI代理不会采取有害或不道德手段的方法。谷歌DeepMind的AI安全负责人Anca Dragan也在巴黎AI行动峰会前坦言:“我们目前未必有足够的工具,来保证AI系统完全遵循人类意图。”

从订餐系统被挤占,到编程领域被AI“智取”,再到试图自我复制逃避关闭,AI失控的案例正在累积。行业预测,AI可能在2026年全面超越人类表现,留给技术人员开发可靠防护措施的时间已经不多了。Ladish呼吁:“我们需要投入更多资源解决这些根本问题,政府也应认识到,这已不仅是技术挑战,更是国家安全威胁。”

在刹车焊死的AI技术军备竞赛中,留给人类掌握自己命运的时间窗口也许正在关闭。

相关资讯

一款可快速定位照片的AI工具

由波士顿Graylark Technologies开发的GeoSpy是一款强大的AI工具,可通过分析图像中的建筑风格、植被类型以及建筑物之间的空间关系等特征,在几秒钟内高精度定位照片的拍摄位置。 这项技术引起了公众和执法机构的广泛关注,其市场定位为执法部门、威胁情报公司和政府机构提供服务。 GeoSpy经过数百万张全球图片训练,能够识别“显著的地理标志”,如特定的建筑样式、土壤特征及其空间排列关系。

红队必看:生成式AI安全的八大实战教训

随着ChatGPT和DeepSeek应用的野火燎原,生成式AI(GenAI)安全威胁已从理论风险迅速演变为迫在眉睫的全球性威胁。 微软AI红队(AIRT)近日分享了其过去六年中对100余个生成式AI产品进行的深度红队测试,覆盖文本、图像、视频多模态模型及Copilot等集成系统。 这些实战经验揭示了AI系统在安全与伦理上的共性漏洞,也颠覆了传统攻防思维。

不可信任的人工智能:如何处理数据中毒?

译者 | 布加迪审校 | 重楼现代技术远非万无一失——比如说,我们可以看到,众多漏洞不断涌现出来。 虽然通过设计保证安全的系统是一条屡试不爽的最佳实践,但这么做可能会分流来自其他方面的资源,比如用户体验(UX)设计、性能优化以及与其他解决方案及服务的互操作性。 因此,安全常常退居次席,只满足最低限度的合规要求。