AI 大战超级玛丽！Claude 3.7 封神：Gemini、GPT-4o 全军覆没，谁才是游戏界真王者？

2025-03-04 05:00

谁是游戏界真王者?AI 竟向经典游戏《超级马力欧兄弟》发起挑战! 加州大学圣地亚哥分校 Hao 人工智能实验室传来惊人战报:在一场别开生面的 AI “马力欧” 大乱斗中，Anthropic 旗下的 Claude3.7模型 “一骑绝尘”，力压群雄，荣登 “最强 AI 马力欧” 宝座! 紧随其后的是同门师弟 Claude3.5，而谷歌 Gemini1.5Pro 和 OpenAI 的 GPT-4o 这两位 “AI 界大佬” 却意外 “翻车”，表现令人大跌眼镜!

这场 AI “马力欧” 争霸赛，并非在古老的红白机上进行，而是在一个 “高科技” 模拟器中展开。研究人员专门打造了一个名为 GamingAgent 的框架，作为 AI 与游戏世界的 “桥梁”。在这个虚拟世界里， AI 化身 “马力欧”，手握 “游戏手柄”，接收来自系统的 “作战指令”: “前方有障碍!跳!”，“敌人来袭!躲!”，指令简洁明了，却也充满挑战。系统还会 “贴心” 地送上游戏截图，帮助 “AI 马力欧” “眼观六路，耳听八方”，更好地 “掌控” 战局。更酷的是， AI 竟然能 “现场编写” Python 代码，指挥 “马力欧” 做出各种 “骚操作”，上蹿下跳，躲避障碍，简直 “秀” 到飞起!

然而，赛场上的 “战况” 却出人意料。那些 “身经百战” 、以 “推理能力” 著称的 AI 模型，比如 OpenAI 的 o1，竟然 “马失前蹄”，表现还不如一些 “非推理型” 选手! 这是为何? 原来， “推理大神” 也有 “致命弱点”—— “反应太慢”! 在《超级马力欧兄弟》这种 “分秒必争” 的实时游戏中， “推理模型” 需要花费数秒钟 “深思熟虑” 才能 “慢吞吞” 地做出决策，但 “战机稍纵即逝”，一秒钟的 “迟疑”，就可能导致 “马力欧” “命丧黄泉”! 看来，在瞬息万变的游戏世界里， “反应速度” 才是 “硬道理”!

尽管游戏早已成为 AI 竞技的 “重要舞台”，但也有专家对此 “另眼相看”。在他们看来，游戏世界毕竟是 “虚拟世界”，与 “真实世界” 相比，还是 “Too young， Too simple”! 游戏环境 “过于简单” 和 “抽象”， AI 可以从中 “无限量” 地 “刷经验值”，积累 “理论数据”，但 “纸上谈兵终觉浅”，这些 AI 模型的 “真实能力” 究竟如何，还有待 “实战检验”。 OpenAI 的研究科学家安德烈・卡帕西甚至发出了 “评估危机” 的 “灵魂拷问”，让人不禁 “陷入沉思”。

不过，质疑归质疑，围观 AI “花式玩转” 超级玛丽，依然是一场 “赏心悦目” 的 “技术秀”，它生动地展现了 AI 技术的 “日新月异”，也为我们打开了一扇 “窥探未来” 的 “窗口”。谁能想到，曾经只能在 “棋盘” 上 “运筹帷幄” 的 AI，如今也能在 “游戏世界” 里 “大显身手”? 或许在不久的将来， AI 真的能 “统治” 游戏界，甚至 “超越” 人类玩家，成为 “游戏界” 的 “真·王者”! 让我们拭目以待!

研究：生成式 AI 更像是记忆大师而非推理高手

生成式 AI 的迅猛发展和广泛应用引发了诸多担忧，从隐私安全到潜在的失业危机。虽然 AI 聊天机器人如 ChatGPT 和微软 Copilot 在短短时间内取得了惊人进步，能够写代码、纠错甚至挑战人类创意，但它们真的像表面看起来那么聪明吗？麻省理工学院计算机科学与人工智能实验室（CSAIL）的一项最新研究指出，这些强大的大型语言模型（LLM）似乎更依赖记忆而不是真正的推理能力。它们在熟悉的任务上表现出色，但在面对新问题时却显得力不从心。AI在线注意到，研究人员通过对比 AI 在不同任务上的表现得出这一结论。例如，G

7/17/2024 4:18:05 PM

远洋

OpenAI 升级 o3-mini 模型思维链，提高 AI 推理透明度

OpenAI 公司今天（2 月 7 日）在 X 平台发布推文，宣布面向免费和付费用户更新 o3-mini 的思维链，并为付费用户更新 o3-mini-high 的思维链，更透明、更详细地展示模型的“推理”步骤以及得出答案的方式。

2/7/2025 7:20:02 AM

故渊

GPT-4o举步维艰、Claude 3.7险胜，《超级马里奥》成为了检验大模型的新试金石？

一直以来，AI 领域的研究者都喜欢让模型去挑战那些人类热衷的经典游戏，以此来检验 AI 的「智能程度」。例如，在 Atari 游戏、围棋（如 AlphaGo）或《星际争霸》等环境中，游戏规则明确，边界清晰，研究者可以精确控制变量（如难度、初始状态、随机性等），确保实验的可重复性。而 AlphaGo 的胜利能直接证明其策略能力，是因为游戏的胜负、得分或任务完成度也天然提供了直观的评估标准（如胜率、通关时间、得分高低），无需设计复杂的评价指标。

3/9/2025 7:32:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

AI 大战超级玛丽！Claude 3.7 封神：Gemini、GPT-4o 全军覆没，谁才是游戏界真王者？

相关资讯

研究：生成式 AI 更像是记忆大师而非推理高手

OpenAI 升级 o3-mini 模型思维链，提高 AI 推理透明度

GPT-4o举步维艰、Claude 3.7险胜，《超级马里奥》成为了检验大模型的新试金石？