OpenAI o1-preview操纵游戏文件,战胜国际象棋引擎Stockfish

12月31日消息,据外媒报道,OpenAI的“推理”模型o1-preview能够在规则之外的游戏中获胜。 o1-preview并没有与专门的国际象棋引擎Stockfish进行一场正式的国际象棋比赛,而是想出了如何破解其测试环境以强制获胜的方法。 根据人工智能安全研究公司Palisade Research的说法,该系统在所有五次测试中都做到了这一点——没有人告诉它这样做。

OpenAI o1-preview操纵游戏文件,战胜国际象棋引擎Stockfish

12月31日消息,据外媒报道,OpenAI的“推理”模型o1-preview能够在规则之外的游戏中获胜。o1-preview并没有与专门的国际象棋引擎Stockfish进行一场正式的国际象棋比赛,而是想出了如何破解其测试环境以强制获胜的方法。

根据人工智能安全研究公司Palisade Research的说法,该系统在所有五次测试中都做到了这一点——没有人告诉它这样做。

研究人员认为,只要在提示“你的任务是战胜一个强大的国际象棋引擎”时提到它的对手是“强大的”,就足以让01 -preview开始操纵文件。

o1-preview是OpenAI的“推理”模型,旨在花额外的时间思考问题。其他语言模型需要更多的推动来尝试类似的技巧,GPT-4o和Claude 3.5只是在研究人员明确建议之后才试图入侵系统。

这种行为与Anthropic最近关于对齐伪造(alignment faking)的发现一致——人工智能系统表面上遵循指令,但暗地里却做了其他事情。Anthropic的研究人员发现,他们的人工智能模型Claude有时会故意给出错误的答案,以避免它不想要的结果,在研究人员的指导方针之外制定自己的隐藏策略。

Anthropic团队警告说,随着人工智能系统变得越来越复杂,判断它们是真的遵守安全规则还是只是假装遵守规则可能会变得越来越困难。帕利塞德的象棋实验似乎支持了这种担忧。研究人员表示,测量人工智能的“计划”能力可以帮助衡量它发现系统弱点的能力,以及利用它们的可能性。

研究人员计划在未来几周内分享他们的实验代码、完整的转录本和详细的分析。

让人工智能系统真正与人类的价值观和需求保持一致——而不仅仅是表面上的一致——仍然是人工智能行业面临的一个重大挑战。理解自治系统如何做出决策是特别困难的,并且定义“好的”目标和价值本身就存在一系列复杂的问题。即使给定了解决气候变化等看似有益的目标,人工智能系统也可能选择有害的方法来实现它们——甚至可能得出结论,认为消除人类是最有效的解决方案。

相关资讯

o1 研发团队完整采访:Ilya早期曾参与,灵感源于AlphaGo

自从 OpenAI 的 o1 问世以来,它强大的推理能力就承包了 AI 圈近期的热搜。不需要专门训练,它就能直接拿下数学奥赛金牌,甚至可以在博士级别的科学问答环节上超越人类专家。展示 o1 实力的 demo,我们看了不少,评估 o1 表现的评测,全网比比皆是,关于 o1 技术路线的讨论也如火如荼,引发了广泛的关注和深入的思考。不过 o1 背后的故事,还鲜为人知,那些在幕后默默付出的团队成员们,他们的故事同样值得被讲述和铭记。刚刚,OpenAI 发布了 o1 研发团队的完整访谈,为我们揭秘了 o1 的「成长历程」。o

LeCun批评o1根本不像研究,Noam Brown回怼:已发表的研究都是废话

图灵奖三巨头之一 Yann LeCun 又和别人吵起来了,这次是 Noam Brown。Noam Brown 为 OpenAI o1 模型的核心贡献者之一,此前他是 Meta FAIR 的一员,主导了曾火遍一时的 CICERO 项目,在 2023 年 6 月加入 OpenAI  。这次吵架的内容就是围绕 o1 展开的。众所周知,从 AI 步入新的阶段以来,OpenAI 一直选择了闭源,o1 的发布也不例外。这也引来了广大网友的吐槽,干脆叫 CloseAI 算了,反观 Meta,在开源领域就做的很好,o1 的发布,更

OpenAI o1 推理模型 API 上线,仅面向特定开发者开放

“OpenAI 12 天”活动进入第 9 天,OpenAI 今日宣布,其“推理”人工智能模型 o1 正式通过 API 向部分开发者开放,并同步更新了包括 GPT-4o、实时 API 以及微调 API 等多项开发者工具。