AI 大战超级玛丽!Claude 3.7 封神:Gemini、GPT-4o 全军覆没,谁才是游戏界真王者?

谁是游戏界真王者?AI 竟向经典游戏《超级马力欧兄弟》发起挑战! 加州大学圣地亚哥分校 Hao 人工智能实验室传来惊人战报:在一场别开生面的 AI “马力欧” 大乱斗中,Anthropic 旗下的 Claude3.7模型 “一骑绝尘”,力压群雄,荣登 “最强 AI 马力欧” 宝座! 紧随其后的是同门师弟 Claude3.5,而谷歌 Gemini1.5Pro 和 OpenAI 的 GPT-4o 这两位 “AI 界大佬” 却意外 “翻车”,表现令人大跌眼镜!

谁是游戏界真王者?AI 竟向经典游戏《超级马力欧兄弟》发起挑战! 加州大学圣地亚哥分校 Hao 人工智能实验室传来惊人战报:在一场别开生面的 AI “马力欧” 大乱斗中,Anthropic 旗下的 Claude3.7模型 “一骑绝尘”,力压群雄,荣登 “最强 AI 马力欧” 宝座! 紧随其后的是同门师弟 Claude3.5,而谷歌 Gemini1.5Pro 和 OpenAI 的 GPT-4o 这两位 “AI 界大佬” 却意外 “翻车”,表现令人大跌眼镜! 这究竟是怎么回事?

这场 AI “马力欧” 争霸赛, 并非在古老的红白机上进行, 而是在一个 “高科技” 模拟器中展开。 研究人员专门打造了一个名为 GamingAgent 的框架, 作为 AI 与游戏世界的 “桥梁”。 在这个虚拟世界里, AI 化身 “马力欧”, 手握 “游戏手柄”, 接收来自系统的 “作战指令”: “前方有障碍!跳!”,“敌人来袭!躲!”, 指令简洁明了, 却也充满挑战。 系统还会 “贴心” 地送上游戏截图, 帮助 “AI 马力欧” “眼观六路,耳听八方”, 更好地 “掌控” 战局。 更酷的是, AI 竟然能 “现场编写” Python 代码, 指挥 “马力欧” 做出各种 “骚操作”, 上蹿下跳, 躲避障碍, 简直 “秀” 到飞起!

image.png

然而, 赛场上的 “战况” 却出人意料。 那些 “身经百战” 、 以 “推理能力” 著称的 AI 模型, 比如 OpenAI 的 o1, 竟然 “马失前蹄”, 表现还不如一些 “非推理型” 选手! 这是为何? 原来, “推理大神” 也有 “致命弱点”—— “反应太慢”! 在《超级马力欧兄弟》 这种 “分秒必争” 的实时游戏中, “推理模型” 需要花费数秒钟 “深思熟虑” 才能 “慢吞吞” 地做出决策, 但 “战机稍纵即逝”, 一秒钟的 “迟疑”, 就可能导致 “马力欧” “命丧黄泉”! 看来, 在瞬息万变的游戏世界里, “反应速度” 才是 “硬道理”!

尽管游戏早已成为 AI 竞技的 “重要舞台”, 但也有专家对此 “另眼相看”。 在他们看来, 游戏世界毕竟是 “虚拟世界”, 与 “真实世界” 相比, 还是 “Too young, Too simple”! 游戏环境 “过于简单” 和 “抽象”, AI 可以从中 “无限量” 地 “刷经验值”, 积累 “理论数据”, 但 “纸上谈兵终觉浅”, 这些 AI 模型的 “真实能力” 究竟如何, 还有待 “实战检验”。 OpenAI 的研究科学家安德烈・卡帕西 甚至发出了 “评估危机” 的 “灵魂拷问”, 让人不禁 “陷入沉思”。

不过, 质疑归质疑, 围观 AI “花式玩转” 超级玛丽, 依然是一场 “赏心悦目” 的 “技术秀”, 它生动地展现了 AI 技术的 “日新月异”, 也为我们打开了一扇 “窥探未来” 的 “窗口”。 谁能想到, 曾经只能在 “棋盘” 上 “运筹帷幄” 的 AI, 如今也能在 “游戏世界” 里 “大显身手”? 或许在不久的将来, AI 真的能 “统治” 游戏界, 甚至 “超越” 人类玩家, 成为 “游戏界” 的 “真·王者”! 让我们拭目以待!

相关资讯

研究:生成式 AI 更像是记忆大师而非推理高手

生成式 AI 的迅猛发展和广泛应用引发了诸多担忧,从隐私安全到潜在的失业危机。虽然 AI 聊天机器人如 ChatGPT 和微软 Copilot 在短短时间内取得了惊人进步,能够写代码、纠错甚至挑战人类创意,但它们真的像表面看起来那么聪明吗?麻省理工学院计算机科学与人工智能实验室(CSAIL)的一项最新研究指出,这些强大的大型语言模型(LLM)似乎更依赖记忆而不是真正的推理能力。它们在熟悉的任务上表现出色,但在面对新问题时却显得力不从心。AI在线注意到,研究人员通过对比 AI 在不同任务上的表现得出这一结论。例如,G

OpenAI 升级 o3-mini 模型思维链,提高 AI 推理透明度

OpenAI 公司今天(2 月 7 日)在 X 平台发布推文,宣布面向免费和付费用户更新 o3-mini 的思维链,并为付费用户更新 o3-mini-high 的思维链,更透明、更详细地展示模型的“推理”步骤以及得出答案的方式。

消息称 OpenAI 公司 2024 年资金缺口达到 50 亿美元

科技媒体 The Information 昨日(7 月 24 日)发布博文,爆料称 OpenAI 目前用于 AI 推理的算力,预估相当于 35 万台包含英伟达 A100 芯片的服务器,其中约 29 万台用于 ChatGPT,而且近乎满负荷运行。报道称截至今年 3 月,OpenAI 公司花费近 40 亿美元使用微软服务器为 ChatGPT 运行推理工作负载;此外 OpenAI 今年训练 ChatGPT 以及新 AI 模型的成本预估达到 30 亿美元,因此训练和推理 AI 的成本可能达到 70 亿美元(AI在线备注:当