外国高三学生创建 AI 评测网站：让模型在《我的世界》里“一决高下”

2025-03-22 03:26

名为阿迪·辛格（Adi Singh）的高三学生创建了专门为 AI 评测而开发的网站 Minecraft Benchmark（简称 MC-Bench），让 AI 模型在《我的世界》中同台竞技，基于相同的提示生成建筑作品。

由于传统 AI 基准测试方法难以全面评估模型能力，AI 开发者正尝试更具创意的测试方式，其中一种测试手段，则是微软沙盒建造游戏《我的世界》。

据外媒 TechCrunch 报道，名为阿迪・辛格（Adi Singh）的高三学生创建了专门为 AI 评测而开发的网站 Minecraft Benchmark（简称 MC-Bench），让 AI 模型在《我的世界》中同台竞技，基于相同的提示生成建筑作品。用户可以为自己认为更出色的作品投票，而投票结束后才会显示具体是哪款 AI 生成了哪些作品。

其认为选择《我的世界》的意义并不在于游戏本身，而在于它的知名度。即便没玩过这款游戏，人们依然能分辨哪个方块状的菠萝更逼真。“《我的世界》能让 AI 发展的进步更加直观，大家对《我的世界》的风格和视觉效果都很熟悉。”

目前，MC-Bench 的志愿贡献者共有 8 人。AI在线从 MC-Bench 网站的信息获悉，Anthropic、谷歌、OpenAI 和阿里巴巴为该项目提供了 AI 计算资源支持，但并未直接参与开发。

“目前，我们的测试仍然较为基础，主要用于观察 AI 从 GPT-3 时代至今的进步。但未来，我们或许会拓展到更复杂的目标导向任务和长期规划能力评估，游戏或许是测试 AI 智能体推理能力的一种理想方式 —— 相比现实世界，它更安全，也更可控。”

外国高三学生创建 AI 评测网站：让模型在《我的世界》里“一决高下”

严格来说，MC-Bench 仍属于编程基准测试，因为 AI 需要编写代码来生成建筑，例如“霜雪人”或“热带风情的海滨小屋”。

相较于分析代码，大多数用户更容易通过作品本身来评判 AI 的表现。至于这些测试结果是否能真正衡量 AI 的实际应用价值，仍有待商榷。但辛格认为，这些数据仍然具备重要参考意义。“MC-Bench 当前的排行榜与我的实际使用体验高度吻合，而这在许多传统文本基准测试中并不常见。或许，它能帮助 AI 开发者判断自己是否走在正确的方向上。”

谷歌 DeepMind 闭关修炼《我的世界》：自学成才挖钻石，成果登 Nature

谷歌 DeepMind 研发的 DreamerV3 实现重大突破：无需任何人类数据，通过强化学习与「世界模型」，自主完成《我的世界》中极具挑战的钻石收集任务。该成果被视为通往 AGI 的一大步，并已登上 Nature。

4/3/2025 1:42:19 PM

汪淼

全球首个「智能体文明」诞生！一千个智能体在「我的世界」自由发展

现实世界中，特朗普和哈里斯正在积极准备今年底的美国第 60 届总统选举，而在《我的世界》中，他们的自主式数字模拟人也正在积极争取村民的支持。在这个数字平行世界中，数字公民可以拥有一部共享的宪法，并且他们还可以投票修改。在特朗普治下，村民们投票增加了守卫的数量；而在卡玛拉治下，村民们选择通过司法来解决霸凌问题以及废除死刑。这些描述来自 AI 创业公司 Altera 的创始人 Robert Yang 分享的一段视频。在这段视频中，他们宣称在《我的世界》中造出了世界上首个智能体文明（Agent Civilization）

9/4/2024 4:53:00 PM

机器之心

调查：超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告，企业在人工智能（AI）领域的投资高达2.5亿美元，尽管在证明投资回报率(ROI)方面面临挑战。商业领袖们正努力提高生产力，但新技术的集成往往需要重构现有应用、更新流程并激励员工学习，以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查，以揭示 AI 采用的现实情况，探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。

3/18/2025 10:02:00 AM

AI在线

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

外国高三学生创建 AI 评测网站：让模型在《我的世界》里“一决高下”

相关资讯

谷歌 DeepMind 闭关修炼《我的世界》：自学成才挖钻石，成果登 Nature

全球首个「智能体文明」诞生！一千个智能体在「我的世界」自由发展

调查：超72% 的企业选择 AI 工具时最看重易用性