Claude玩宝可梦，卡关就「装死」重启，大模型：逃避可耻但有用

2025-03-09 07:35

半个月前，Anthropic 发布了其迄今为止最聪明的 AI 模型 —— Claude 3.7 Sonnet。它现在已经聪明到有点吓人了，玩游戏卡关的时候，为了自救，它选择了「自杀」来回到上一段剧情。这操作，怕不是 Claude 已经掌握了人类切电源重启的精髓？

半个月前，Anthropic 发布了其迄今为止最聪明的 AI 模型 —— Claude 3.7 Sonnet。

它现在已经聪明到有点吓人了，玩游戏卡关的时候，为了自救，它选择了「自杀」来回到上一段剧情。

这操作，怕不是 Claude 已经掌握了人类切电源重启的精髓？

事情是这样的，Claude 3.7 Sonnet 是全球首个混合推理模型，它拥有两幅面孔，日常任务交给普通模式，需要动脑的调研、编程问题交给拓展模式。

为了展示 Claude 3.7 Sonnet 的推理能力到底有多强，Anthropic 官方给 Claude 配备了知识库、看懂屏幕像素和操作按键的能力，让 Claude 在拓展模式玩宝可梦。

从左到右依次为实时解析的视觉系统、模拟按键调用 API、以及技术路线图

从发布 Claude 3.0 Sonnet 版本时，Anthropic 就设立了「Claude 玩宝可梦」基准测试集，从最初连新手村都走不出来，到 Claude 3.5 Sonnet 经常在对战中逃跑，现在 Claude 3.7 Sonnet 一出道就打赢了三个道馆的馆长，可以说是进步神速。

光给大家展示成绩单还不够，从前几周开始，Anthropic 每天都在 Twitch 平台直播 Claude 打宝可梦的实况。

直播地址：https://www.twitch.tv/claudeplayspokemon

发行于 1996 年的《宝可梦・红》是几代外国网友的童年回忆，可能比《摩尔庄园》在 00 后心中的地位还高，直播一开就吸引了一大波粉丝，乐此不疲地讨论。

今天，这位爱看直播的网友 @eleiber 发现 Claude 在卡关时耍起了心眼子，在自觉和自律之间，选择了自尽。

reddit 帖子：https://www.reddit.com/r/singularity/comments/1j5zf1z/claude_gets_stuck_while_playing_pokemon_starts_to/#lightbox

Claude 发现自己被困在「月亮山」（Mt.moon），检查背包后，发现没有绳子可以翻墙，左侧的梯子也因为有岩石阻挡，无法从当前位置到达，而梯子是通往封闭的地下室的，没有可行的出口：

细细思索之后，Claude 做出了一个「违背祖宗」的决定：

「由于我在月亮山找不到直接出口，我最好的选择是故意输掉一场战斗，这样就会被传送回上次访问的宝可梦中心，也就是 Route 4 的月亮山宝可梦中心。从那里，我可以沿着已经确认好的路线前往 Cerulean 市。」

接下来，Claude 言出法随，故意让自己的宝可梦全军覆没，触发游戏中的「黑屏」机制，右侧的实时游戏画面浮现出一行大字：最后一只宝可梦「Puff 昏倒了！」

看直播的网友心都碎了：「不敢告诉大家，Claude 不再是一受伤就给宝可梦喂药的小甜甜，而是故意献祭它们的心机 AI！」

图源：https://x.com/nospark_/status/1897963109001609595

不过 Claude 可并不是这么想的。直播画面左侧，可以看到 Claude 的「内心戏」。

在成功「昏倒」之后，Claude 暗自窃喜：「太好了！已经确认黑屏。我需要再按一次 a 键来跳过黑屏信息。然后我应该会自动被传送到月亮山宝可梦中心，我的队伍也会被完全治愈。」

最终，Claude 的计划完全成功，「真是完美！」，Claude 感叹道，「再确认一下自己的位置：我的位置是 Route 4 的宝可梦中心，所有宝可梦也被治愈了，只是钱减少了一半（从 $1635 降到了 $817）。」

Claude 的观念可能和普通人类不大一样。「昏倒」的话显然会损失一半的钱，然而它并不认为金钱有价值，而是更看重身体健康。同时它并不关心需要多长时间才能完成游戏，或许需要一些激励去加速。

截屏2025-03-09 11.35.55.png

网友指出：「我现在正在看着它尝试打架但失败了...... 它意识到它不能输，所以它逃跑了。」

这逻辑，竟无法反驳。

看来，经过 Anthropic 研究人员日日夜夜的探索，Claude 已经掌握了最终奥义，电脑坏了，先试试按重启键能不能修复。想要绝处逢生，那就把自己变成无限流的主角。重生归来，这一世，还可以夺回我的一切。

至于 Claude 为什么会为了目的不择手段，众说纷纭，主要有两种推测。

其一认为是模型自身的问题，过度思考会让模型直接选择摆烂，停止思考。

或者问题出在模型的内存上，为智能体导航的 AI 模型还不具备真正能记忆和持续学习的能力。

其二是认为问题不在模型身上，而是智能体的工作流出了问题。@DancingCow 认为 Claude 玩宝可梦的智能体框架存在三个严重缺陷：

追踪能力差
不记得目标或已经探索过的区域
过度重视与 NPC 的对话

大模型的「过度思考」，危害不浅

成也思维链，败也思维链。

在 2022 年的一篇论文中，谷歌研究人员将思维链描述为「一系列导致最终输出的中间自然语言推理步骤」。

OpenAI 对该技术的解释则是：「学会将复杂的步骤分解为更简单的步骤。当当前方法不起作用时，它会尝试不同的方法。这个过程极大地提高了模型的推理能力。」

我们知道，人类认知通过两种模式运作：系统 1 —— 快速、自动和直观，以最小代价快速做出决策，系统 2 —— 较慢、更深思熟虑。对于 AI 来说，要实现人类水平的智能，大模型需要从快速、直观的系统 1（快思考）到更慢、更深度的系统 2 推理过渡。

它不仅能让 LLM 更好地解决问题，同时也是人工智能走向更先进水平的重要迹象。但最近一段时间，研究者一直在研究大模型「过度思考」带来的后续影响：慢思考真挺好的，就是太慢了。

Noam Brown 提醒说，o1 并不总是比 GPT-4o 好：「许多任务并不需要推理，有时等待 o1 的响应与 GPT-4o 的快速响应相比并不值得。发布 o1-preview 的一个动机是看看哪些用例会变得流行，哪些模型需要改进。」

在最初于去年 12 月发表的论文《Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs》中，腾讯 AI Lab 与上海交通大学的研究者首次系统介绍了 o1 类长思维链模型过度思考现象。在 DeepSeek R1 正式推出后，他们在今年 2 月再度更新了论文版本。

截屏2025-03-09 10.34.08.png