外国高三学生创建 AI 评测网站:让模型在《我的世界》里“一决高下”

名为阿迪·辛格(Adi Singh)的高三学生创建了专门为 AI 评测而开发的网站 Minecraft Benchmark(简称 MC-Bench),让 AI 模型在《我的世界》中同台竞技,基于相同的提示生成建筑作品。

由于传统 AI 基准测试方法难以全面评估模型能力,AI 开发者正尝试更具创意的测试方式,其中一种测试手段,则是微软沙盒建造游戏《我的世界》。

据外媒 TechCrunch 报道,名为阿迪・辛格(Adi Singh)的高三学生创建了专门为 AI 评测而开发的网站 Minecraft Benchmark(简称 MC-Bench),让 AI 模型在《我的世界》中同台竞技,基于相同的提示生成建筑作品。用户可以为自己认为更出色的作品投票,而投票结束后才会显示具体是哪款 AI 生成了哪些作品。

外国高三学生创建 AI 评测网站:让模型在《我的世界》里“一决高下”

其认为选择《我的世界》的意义并不在于游戏本身,而在于它的知名度。即便没玩过这款游戏,人们依然能分辨哪个方块状的菠萝更逼真。“《我的世界》能让 AI 发展的进步更加直观,大家对《我的世界》的风格和视觉效果都很熟悉。”

目前,MC-Bench 的志愿贡献者共有 8 人。AI在线从 MC-Bench 网站的信息获悉,Anthropic、谷歌、OpenAI 和阿里巴巴为该项目提供了 AI 计算资源支持,但并未直接参与开发。

“目前,我们的测试仍然较为基础,主要用于观察 AI 从 GPT-3 时代至今的进步。但未来,我们或许会拓展到更复杂的目标导向任务和长期规划能力评估,游戏或许是测试 AI 智能体推理能力的一种理想方式 —— 相比现实世界,它更安全,也更可控。”

外国高三学生创建 AI 评测网站:让模型在《我的世界》里“一决高下”

严格来说,MC-Bench 仍属于编程基准测试,因为 AI 需要编写代码来生成建筑,例如“霜雪人”或“热带风情的海滨小屋”。

相较于分析代码,大多数用户更容易通过作品本身来评判 AI 的表现。至于这些测试结果是否能真正衡量 AI 的实际应用价值,仍有待商榷。但辛格认为,这些数据仍然具备重要参考意义。“MC-Bench 当前的排行榜与我的实际使用体验高度吻合,而这在许多传统文本基准测试中并不常见。或许,它能帮助 AI 开发者判断自己是否走在正确的方向上。”

相关资讯

全球首个「智能体文明」诞生!一千个智能体在「我的世界」自由发展

现实世界中,特朗普和哈里斯正在积极准备今年底的美国第 60 届总统选举,而在《我的世界》中,他们的自主式数字模拟人也正在积极争取村民的支持。在这个数字平行世界中,数字公民可以拥有一部共享的宪法,并且他们还可以投票修改。在特朗普治下,村民们投票增加了守卫的数量;而在卡玛拉治下,村民们选择通过司法来解决霸凌问题以及废除死刑。这些描述来自 AI 创业公司 Altera 的创始人 Robert Yang 分享的一段视频。在这段视频中,他们宣称在《我的世界》中造出了世界上首个智能体文明(Agent Civilization)

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。

思谋发布首个工业大模型开发底座 大模型开发成本直降40%

6月27日,华南工博会现场,思谋科技宣布行业首个工业大模型开发与应用底座SMoreLrMo正式发布。SMoreLrMo是面向工业场景的大模型开发与应用平台,覆盖了应用层面、算法框架、基础设施服务等开发全场景,涉及算力资源调度管理能力、数据自动标注管理能力、应用开发管理能力、算法服务管理能力等人工智能模型全生命周期。今年以来,大模型的火热点燃了新一轮人工智能发展浪潮,也正在引领新一轮工业革命,帮助企业重塑生产及经营各环节以实现提质降本增效。而SMoreLrMo平台的发布,将为大模型在工业领域的应用提供了基础,进一步降