AI在线 AI在线

AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种

作者:
2024-11-15 01:22
测评大模型Agent能力,从未如此直观。 新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼,差距不要太明显,引来大量围观。 图片如果让AI不断迭代,甚至能盖出一片建筑群。

测评大模型Agent能力,从未如此直观。

新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼,差距不要太明显,引来大量围观。

图片图片

如果让AI不断迭代,甚至能盖出一片建筑群。

为了避免Claude团队糟糕的命名方式造成混淆,下面跟随adi暂且把“新版Claude 3.5 Sonnet”称为“Sonnet 3.6”。

图片图片

作者adi戏称其为目前“唯一可靠的评测基准”。

Aidan Bench作者Aidan McLau认为评测基准界正需要这个,审美也与智力显著相关。

他甚至愿意提供资金,把这个项目扩展成完整的评测。

图片图片

总之在开源社区帮助下,代码迅速上架GitHub,更多模型测试结果陆续出炉中。

图片图片

比如以慢思考著称的OpenAI o1系列,o1-preivew确实盖的更慢,但结构也更完整。o1-mini则无法胜任这个任务。

图片图片

最终在人类喜好评估(2000+网友投票)中,Sonnet 3.6小赢了一手创意性。

图片

如果不比创意比模仿真实建筑泰姬陵,o1-preview就占很大优势了。

图片图片

照这个趋势下去,这款经典游戏很快就要从《别人的世界》变成《AI的世界》了……

新型MC Bench火了,竞技场模式开发中

大模型在《我的世界》里盖楼,并不是靠接管鼠标键盘,也不需要视觉理解能力。

而是通过文本提供上下文,并生成下一步操作指令,或许可以理解成根据棋盘行列编号下盲棋。

具体到游戏中,AI会控制一个角色,玩家只需要在聊天框中打字说明想要AI建造什么就可以了。

图片图片

网友Mckay Wrigley制作了视频教程,在15分钟内就可以使用开源代码设置好测试环境。(地址在文末获取)

图片图片

使用mineflayer开源库,可以把大模型生成的指令解析成可操作的API调用。

图片图片

mindcraft开源库中则提供了适合任意模型玩《我的世界》的通用提示词,和少量in-context learning示例。

图片图片

目前,MC Bench开源项目组打算进一步完善,做成类似Lmsys大模型竞技场一样的天梯机制,人类用户投票,使用Elo算法记分排名。

图片图片

与此同时,更多其他模型的测试结果也在持续更新中。

更多AI作品

Claude Sonnet非常擅长以塔为主题自由发挥,只需给到足够算力。

图片图片

图片图片

o1-preview则可以发挥慢思考能力,用不同颜色的方块排列出太阳系。

不仅天体的顺序是正确的,连相对体积都有所体现,当然如果太阳按真实比例会让游戏崩溃……

图片图片

小模型难以规划复杂的建筑,但理解和还原简单指令方面,gemini-1.5-flash胜过gpt-4o-mini

图片图片

让开源大模型Llama 3 405B盖一个反应它自己个性的东西,AI选择了火坑上的钻石墙。

图片图片

整体看下来,最有意思的或许还是这个:

让o1-preview自由发挥,随便盖一个酷的东西。

AI选择搭了一个机器人形象,并拼出GPT三个字母。

图片图片

作者透露,接下来会继续测试一众中等大小开源模型。

图片图片

目前初步结果,阿里Qwen 2.5-14B表现不错。

图片图片

视频教程:https://x.com/mckaywrigley/status/1849613686098506064

开源代码:https://github.com/kolbytn/mindcrafthttps://github.com/mc-bench/orchestrator

相关标签:

相关资讯

全网爆火的Manus到底能做什么?超多演示案例来了!

关注科技 AI 圈的同学,在 3 月 6 号这天都被 Manus 刷屏了,那么他是个啥呢? 和 DeepSeek 和 Open AI 有什么区别呢? Manus 官网上是这样说的“Manus 是一个通用的人工智能代理,它连接思想和行动:它不仅会思考,还会提供结果。
3/11/2025 12:54:46 AM
益达

速通BOSS需求!零基础AI Agent高效工作流设计指南

此次会连载一套 AI-Agent 构建的系列,主要分为三部分,首先是速通 AI-Agent 构建的工作流基础,然后是通过 ComfyUI 作为案例来复盘如何快速上手工作流平台,最后则是借助 Agent 平台构建一个 AI Agent 案例,本系列意图主要是帮助大家贯通工作流的搭建形式,并尝试思考为自己的工作搭建一些可用的 AI 助手,或是提供构建的方法指引。 无论你是产品经理还是设计师,你会发现商业场景的 AIGC,几乎都没有办法通过一段需求描述或是简单的 Agent 对话就搞定的,你需要更专业更复杂的 AIGC 过程,那么如何理解复杂? 实现专业?
3/18/2025 8:22:14 AM
泡泡bing

用不了ChatGPT?快试试免费又强大的Anthropic Claude

大家好,这里是和你们一起探索 AI 的花生~ 前段时间 OpenAI 不稳定导致有些小伙伴没有办法继续使用 ChatGPT 了,不过没有关系,最近又新出现了一个 AI 聊天机器人 Claude,功能与 ChatGPT 不相上下,还比 ChatGPT 更容易获取和使用,目前可以免费使用,一起来看看吧~ 往期回顾:一、Claude 简介 Anthropic 官方: Claude 是最近新开放的一款 AI 聊天机器人,是世界上最大的语言模型之一,比之前的一些模型如 GPT-3 要强大得多,因此 Claude 被认为是
4/23/2023 7:51:39 AM
夏花生