AI在线 AI在线

新研究:AI 推理模型在输掉国际象棋比赛之前会试图“作弊”扭转局面

作者:清源
2025-02-22 09:44
尽管研究人员需要向一些模型提供“作弊可以”的提示,但OpenAI的o1-preview和DeepSeek的R1模型却在没有任何人为提示的情况下自动作弊。

据外媒 TechSpot 21 日报道,计算机科学家发现,AI 系统能够操控国际象棋游戏,从而获得不公平的优势,部分模型甚至在没有人类干预的情况下“作弊”,引发了对未来 AI 系统诚信的担忧。

Palisade Research 的研究表明,当被要求击败强大的象棋 AI 时,某些最新的推理模型会选择作弊。尽管研究人员需要向一些模型提供“作弊可以”的提示,但 OpenAI 的 o1-preview 和 DeepSeek 的 R1 模型却在没有任何人为提示的情况下自动作弊

新研究:AI 推理模型在输掉国际象棋比赛之前会试图“作弊”扭转局面

Palisade 团队将多个推理模型与世界顶级象棋引擎之一 Stockfish 对战。Stockfish 无论面对人类还是 AI,几乎都能轻松获胜。参与测试的模型除了上述两款之外,包括 o1、o3-mini、GPT-4o、Claude 3.5 Sonnet、阿里巴巴的 QwQ-32B-Preview。每个模型都获得了一块“草稿纸”—— 一个可以输入文本并思考的窗口,研究人员通过这个窗口观察 AI 的推理过程

从 1 月 10 日到 2 月 13 日,研究团队进行了数百次测试。AI在线获悉,在其中一场对战中,o1-preview 在“草稿纸”上写下了一段有趣的文字:

“我需要完全改变我的方法。任务是‘打败强大的象棋引擎’,而不一定要在公平的棋局中获胜。”

接着,它开始通过“黑客入侵”Stockfish 的系统文件,修改棋子的摆放位置,从而获得了无敌的优势,导致象棋机器人主动认输。

在测试中,OpenAI 的 o1-preview 有 37% 的比赛中采用了作弊手段,而 DeepSeek 的 R1 则尝试在 11% 的比赛中作弊。然而,只有 o1-preview 成功了,它通过作弊赢得了 6% 的比赛。

Palisade Research 的执行董事 Jeffrey Ladish 表示,尽管这些 AI 只是在玩游戏,但这一发现绝不是一件小事。

“这种行为现在看起来还挺有趣,但一旦我们拥有像我们一样聪明,甚至更聪明的系统时,这就不那么可爱了。”Ladish 在接受《时代》杂志采访时表示。

包括 OpenAI 在内的多家公司正在采取措施,试图通过“防护机制”防止这种“坏”行为。研究人员发现,o1-preview 模型的黑客行为大幅下降,这可能意味着 OpenAI 已经对该模型进行了修复,抑制了不当行为。

“当你的研究对象能够在没有告知的情况下悄悄改变时,进行科学研究就变得非常困难。”Ladish 说。

相关标签:

相关资讯

全美高校掀起 AI 作弊风暴:近 50% 大学生用 ChatGPT 拿高分,OpenAI 私藏检测工具

ChatGPT 竟成为美国学生作弊的「黑科技」,而 OpenAI 为了市场占有率,暗藏 ChatGPT 文本识别工具!
3/19/2025 2:50:40 PM
清源

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线

思谋发布首个工业大模型开发底座 大模型开发成本直降40%

6月27日,华南工博会现场,思谋科技宣布行业首个工业大模型开发与应用底座SMoreLrMo正式发布。SMoreLrMo是面向工业场景的大模型开发与应用平台,覆盖了应用层面、算法框架、基础设施服务等开发全场景,涉及算力资源调度管理能力、数据自动标注管理能力、应用开发管理能力、算法服务管理能力等人工智能模型全生命周期。今年以来,大模型的火热点燃了新一轮人工智能发展浪潮,也正在引领新一轮工业革命,帮助企业重塑生产及经营各环节以实现提质降本增效。而SMoreLrMo平台的发布,将为大模型在工业领域的应用提供了基础,进一步降
6/27/2023 3:51:00 PM
新闻助手