GPT-4o举步维艰、Claude 3.7险胜,《超级马里奥》成为了检验大模型的新试金石?

一直以来,AI 领域的研究者都喜欢让模型去挑战那些人类热衷的经典游戏,以此来检验 AI 的「智能程度」。 例如,在 Atari 游戏、围棋(如 AlphaGo)或《星际争霸》等环境中,游戏规则明确,边界清晰,研究者可以精确控制变量(如难度、初始状态、随机性等),确保实验的可重复性。 而 AlphaGo 的胜利能直接证明其策略能力,是因为游戏的胜负、得分或任务完成度也天然提供了直观的评估标准(如胜率、通关时间、得分高低),无需设计复杂的评价指标。

一直以来,AI 领域的研究者都喜欢让模型去挑战那些人类热衷的经典游戏,以此来检验 AI 的「智能程度」。

例如,在 Atari 游戏、围棋(如 AlphaGo)或《星际争霸》等环境中,游戏规则明确,边界清晰,研究者可以精确控制变量(如难度、初始状态、随机性等),确保实验的可重复性。而 AlphaGo 的胜利能直接证明其策略能力,是因为游戏的胜负、得分或任务完成度也天然提供了直观的评估标准(如胜率、通关时间、得分高低),无需设计复杂的评价指标。

此前,有开发者用 AI 挑战过经典之作《神奇宝贝》。这个游戏的画风虽然简单,但是身为策略游戏,其中包含的角色、属性、战术、体系等,都让人类玩家感到「入门容易精通难」。一开始,AI 没有任何的知识和经验,只能够随机按下按钮。但在五年的模拟游戏时间里,它在经历中习得了更多能力。最终,AI 能够抓住宝可梦,进化它们,并击败了道馆馆主。

当我们以为这已经算是高难度的时候,《超级马里奥兄弟》再次刷新了大模型性能测试基准的上限。

最近,加州的一家实验室 Hao labs 推出了「GamingAgent」项目,这是一项测试 AI 性能的新方法,专为实时动作游戏而构建。

项目地址:https://github.com/lmgame-org/GamingAgent

团队采用了《超级马里奥兄弟》等平台游戏与《2048》、《俄罗斯方块》等益智游戏,作为不同 AI 模型的试验场。

图片

                                                                  GPT-4o 表现

图片

                                                                   Claude-3.7 表现

这是 Claude 3.7 在《俄罗斯方块》中的表现:GPT-4o举步维艰、Claude 3.7险胜,《超级马里奥》成为了检验大模型的新试金石?

Claude 3.7 表现最好

GPT-4o 举步维艰

这次的一系列实验并不是通过 1985 年版的《超级马里奥兄弟》完成的,而是通过包含 GamingAgent 的模拟器完成的。

实验室发现,这种独特的游戏环境迫使每个模型设计复杂的操作和游戏策略,从而能够考验出它们的适应能力和解决问题的能力。

GamingAgent 模拟器为 AI 提供基本指令和游戏截图,指令类似于:「如果附近有障碍物或敌人,请向左移动 / 跳跃以躲避。」然后 AI 通过 Python 代码生成输入,从而控制马里奥。

在下图的演示中,是四个大模型挑战超级马里奥兄弟 1-1 级的结果。Anthropic 的 Claude 3.7 表现最好,其次是 Claude 3.5。遗憾的是,谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 表现不佳。

图片

有趣的是,尽管 OpenAI 的 GPT-4o 等推理模型在大多数基准测试中总体表现更好,但在这种实时游戏场景中的表现却不佳。这是因为推理模型的决策过程较慢,通常需要几秒钟才能确定如何行动。

另一方面,非推理模型在超级马里奥兄弟游戏中表现更佳,因为时机就是一切,可以决定成败。一秒钟也能导致安全跳过和坠落然后「Game Over」之间的差别。

使用《超级马里奥兄弟》之类的游戏来对 AI 进行基准测试并不是一个新想法。但毕竟游戏具备一些抽象性质,而且与现实世界的挑战相比来说相对简单,领域内的很多专家对其能否确定技术发展程度的价值表示担忧。

换言之,上述测试未必能说明 Claude 3.7 和 GPT-4o 哪个更强大。

Andrej Karpathy 最近就陷入了「评估危机」:「我真不知道现在应该关注什么(AI)指标。简而言之,我的反应是,我真的不知道这些模型现在有多好。」

截屏2025-03-07 10.57.00.png

而对于不断推出的前沿模型来说,如何判断性能更是个难题。

截屏2025-03-07 11.08.05.png

AI 的「评估危机」

我们该如何衡量大模型的性能提升?

与此同时,有业内人士从另外一个维度提出了对大模型性能提升方向的质疑。

 Hugging Face 的联合创始人兼首席科学官 Thomas Wolf 周四在 X 平台发文,表达了对 AI 未来的深切忧虑。他担心在缺乏根本性研究突破的情况下,人工智能将沦为「服务器上的好好先生」。在他看来,当前的人工智能发展路径难以培养出真正具备创造性思维的系统 —— 那种能够摘取诺贝尔桂冠的突破性思考能力。

image.png

「人们常犯的错误是把牛顿或爱因斯坦简单地视为优等生的放大版,仿佛天才只是把成绩靠前的学生线性延伸出来的结果,」Wolf 写道,「在数据中心里打造一个爱因斯坦,我们需要的不是一个万事通,而是一个敢于提出前人未曾想到或不敢发问的问题的系统。」

这一观点与 OpenAI 首席执行官奥特曼(Sam Altman)的说法形成鲜明对比,后者在今年早些时候撰文称「超级智能」能「极大加速科学发现」。同样,Anthropic 公司首席执行官 Dario Amodei 也预测,AI 将助力大多数癌症的治疗方案研发。

Wolf 认为当下 AI 的问题在于:它不能通过连接原本不相关的事实来创造新知识。即使拥有互联网上的海量信息,现今的 AI 主要只是在填补人类已有知识之间的空白。

包括前谷歌工程师弗朗索瓦・乔莱(François Chollet)在内的一些人工智能专家也表达了类似的观点,他们认为 AI 虽能记忆推理模式,但难以针对全新情境产生真正的「新推理」。

Wolf 认为,AI 实验室目前打造的只是「极其听话的学生」,而非科学革命的缔造者。当今的 AI 不被鼓励质疑或提出可能与训练数据相悖的想法,这使其仅能回答已知范围内的问题。

「在数据中心里打造一个爱因斯坦,关键在于培养一个能提出前人未曾想到的问题的系统,」沃尔夫强调,「一个当所有教科书、专家和常识都持相反观点时,仍会问『如果大家都错了呢?』的系统。」

Wolf 指出,AI 领域的「评估危机」是问题的症结所在。目前评估 AI 进步的标准大多由具有明确、显而易见的「封闭式」答案的问题构成。

作为解决之道,Wolf 建议行业转向能够评估 AI 是否具备「大胆的反常规思考」、基于「微弱线索」提出普适性建议,以及提出能开辟「研究新径」的「非显而易见问题」的能力标准。

他承认,确定这种评估标准的具体形式是个难题,但认为这值得投入精力。

「科学的精髓在于提出正确问题并挑战既有知识的能力,」Wolf 总结道,「我们不需要一个靠常识拿 A+ 的学生,而需要一个能看到并质疑所有人都忽略之处的 B 等生。」

参考链接:

https://techcrunch.com/2025/03/03/people-are-using-super-mario-to-benchmark-ai-now/

https://techcrunch.com/2025/03/06/hugging-faces-chief-science-officer-worries-ai-is-becoming-yes-men-on-servers/

相关资讯

Claude 3.7 Sonnet深夜上线,AI编程的天又被捅破了

AI 这个行业真的卷生卷死,凌晨 2 点半,刚想早睡一点点,9 点起来蹲 DeepSeek 的开源。 结果,Claude 直接玩偷袭了。 Claude 3.7 Sonnet 来了,也是 Claude 家族,第一个能推理的模型。

Anthropic 的 Claude Code 工具存漏洞,导致部分系统“变砖”

Anthropic 最新推出的编码工具 Claude Code 遭遇了一些技术问题。据 GitHub 上的用户报告,该工具的自动更新功能存在漏洞,导致部分工作站出现不稳定甚至无法正常运行的情况。

用不了ChatGPT?快试试免费又强大的Anthropic Claude

大家好,这里是和你们一起探索 AI 的花生~ 前段时间 OpenAI 不稳定导致有些小伙伴没有办法继续使用 ChatGPT 了,不过没有关系,最近又新出现了一个 AI 聊天机器人 Claude,功能与 ChatGPT 不相上下,还比 ChatGPT 更容易获取和使用,目前可以免费使用,一起来看看吧~ 往期回顾:一、Claude 简介 Anthropic 官方: Claude 是最近新开放的一款 AI 聊天机器人,是世界上最大的语言模型之一,比之前的一些模型如 GPT-3 要强大得多,因此 Claude 被认为是