Minecraft变身AI竞技场:高中生打造创新模型评测平台

2025-03-21 09:45

一位12年级学生建立了一个创新平台，让人们能够评估不同AI模型在Minecraft创作中的表现，为人工智能评测领域带来了新的视角。新基准测试方法应对传统评估局限性随着传统AI基准测试方法的局限性日益明显，开发者们开始寻找更具创造性的评估途径。对一群开发者而言，微软旗下的沙盒建造游戏Minecraft成为了理想选择。

一位12年级学生建立了一个创新平台，让人们能够评估不同AI模型在Minecraft创作中的表现，为人工智能评测领域带来了新的视角。

新基准测试方法应对传统评估局限性

随着传统AI基准测试方法的局限性日益明显，开发者们开始寻找更具创造性的评估途径。对一群开发者而言，微软旗下的沙盒建造游戏Minecraft成为了理想选择。

高中生Adi Singh与团队合作开发的Minecraft Benchmark（简称MC-Bench）网站允许AI模型在面对面的挑战中相互竞争，通过Minecraft创作来回应各种提示。用户可以投票选出表现更佳的模型，投票后才能看到每个作品背后的AI制作者。

Singh表示，选择Minecraft作为测试平台是因为其广泛的知名度——作为有史以来最畅销的电子游戏，即使对从未玩过的人来说，也能直观判断哪个块状菠萝更胜一筹。

"Minecraft让人们更容易看到AI开发的进展，"Singh告诉TechCrunch。"人们已经习惯了Minecraft，习惯了它的外观和氛围。"

项目获得主要AI公司支持

MC-Bench目前有8名志愿者参与。根据网站信息，Anthropic、Google、OpenAI和阿里巴巴已为该项目提供补贴，允许使用它们的产品运行基准测试，但这些公司与项目没有其他关联。

Singh分享了项目的未来愿景:"目前，我们只是进行简单的构建，反思我们与GPT-3时代相比取得的进步，但我们计划扩展到长期规划和目标导向任务。游戏可能只是测试代理推理的媒介，它比现实生活更安全，在测试方面更易于控制，在我看来这更理想。"

除Minecraft外，《精灵宝可梦红》、《街头霸王》和《你画我猜》等游戏也被用作AI实验基准，部分原因是AI基准测试本身极具挑战性。

直观评估替代复杂指标

研究人员通常在标准化评估中测试AI模型，但这些测试往往让AI拥有主场优势。由于训练方式的特点，模型天生擅长某些类型的问题，尤其是涉及记忆或基本推理的任务。

这种矛盾体现在多个案例中:OpenAI的GPT-4能在LSAT考试中取得88%的成绩，却无法准确数出"strawberry"一词中有多少个"R";Anthropic的Claude3.7Sonnet在标准化软件工程基准测试中准确率达62.3%，但在玩Pokémon游戏方面却不如大多数五岁儿童。

从技术角度看，MC-Bench是一个编程基准，要求模型编写代码来创建指定的构建，如"雪人弗罗斯蒂"或"原始沙滩上迷人的热带海滩小屋"。但对大多数用户而言，评估雪人外观比深入分析代码更直观，这使得该项目具有更广泛的吸引力，有望收集更多关于模型表现的数据。

虽然这些分数对AI实用性的影响仍有待商榷，但Singh坚信这是一个有力信号:"目前的排行榜与我自己使用这些模型的经验非常接近，这与许多纯文本基准测试不同。也许MC-Bench可以帮助公司了解他们是否朝着正确的方向前进。"

高中生利用《我的世界》搭建AI模型评测网站，全民参与评判模型优劣

在人工智能技术飞速发展的今天，如何有效地评估和比较不同生成式AI模型的实力，成为了一个备受关注的难题。传统的AI基准测试方法逐渐显露出其局限性，为此，AI开发者们正积极探索更具创新性的评估途径。近日，一款名为“Minecraft Benchmark”（简称MC-Bench）的网站横空出世，其独特之处在于，它利用微软旗下的沙盒建造游戏《我的世界》(Minecraft)作为平台，让用户通过对比AI模型根据提示所创建的游戏作品，来评估它们的表现。

3/21/2025 11:48:00 AM

AI在线

火了！高中生用Minecraft做AI基准，用户看图投票决定大模型排名

偶然发现了一个很有趣的 AI 基准测试，点开链接，竟然是一个 MineCraft 作品投票页面？如图所示，这些作品都是 AI 完成的，灰色框中的文字对应的是提示词。黑框是可点击的选项 ——A、B 或者持平。

3/21/2025 5:32:00 PM

机器之心

OpenAI收购Context.ai团队，助力AI模型评估技术升级

近日，科技巨头 OpenAI 宣布收购初创公司 Context.ai 团队，这一举措旨在提升其 AI 模型的评估与分析能力。 Context.ai 成立于2023年，由前谷歌员工 Henry Scott-Green 和 Alex Gamble 共同创办，专注于为开发者提供 AI 模型性能的深入分析和可视化工具。此举显示出 OpenAI 对提升 AI 技术的决心，尤其是在日益复杂的 AI 模型面前。

4/16/2025 12:01:36 PM

AI在线

资讯热榜

Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求 Ollama 支持全线的 Qwen 3 模型即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Qwen3正式发布，优化编码与代理能力，强化MCP支持引领AI新潮流 AI视频资讯早读！7个产品更新+8个案例精选 DeepWiki：AI驱动的GitHub代码库百科全书正式亮相 OpenAI发布gpt-image-1 API，4o图像生成能力正式开放

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据模型机器人谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta 图像 AI创作技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质芯片代码生成式英伟达腾讯神经网络研究计算 Anthropic 3D Sora AI for Science AI设计机器学习开发者 GPU AI视频华为场景预测人形机器人百度苹果伟达 Transformer 深度学习 xAI 模态字节跳动 Claude 大语言模型搜索具身智能驾驶神器推荐文本 Copilot LLaMA 算力安全视觉视频生成干货合集训练应用大型语言模型科技亚马逊 DeepMind 特斯拉智能体

顶部