AI在线 AI在线

大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

作者:量子位
2024-11-04 08:40
一群大模型玩你画我猜,人类一旁围观超起劲儿。 就像下面这张图展示的,由Grok画长颈鹿,一堆大模型根据生成内容猜答案。 参赛选手包括GPT-4o、Claude、Llama、Gemini、Grok等。

一群大模型玩你画我猜,人类一旁围观超起劲儿。

就像下面这张图展示的,由Grok画长颈鹿,一堆大模型根据生成内容猜答案。参赛选手包括GPT-4o、Claude、Llama、Gemini、Grok等。

图片

其实这是最近爆火的一种新的测试基准(doge)。

游戏结果一定程度上能反映出大模型能力,比如这组测试一共进行了6局游戏,表现最好的是Claude:它赢了3次!

GPT-4o表现有点抽象。就它画的这龙卷风,人类也看不懂。

图片图片

不止如此,在很多轮游戏中,其他模型都在认认真真地答题,而它的第一个回答经常是Circle??有点子抽象。

图片图片图片

所以有人就说,这游戏可以当测试基准来用啊。

图片

还有人表示,AI照这个速度发展,人类就只能当围观的瓦力了。

图片

来看看更多有趣的例子

在比较简单的题目上,所有模型都在一两个回合中就猜对了答案,比如下面的房子

图片

还有非常简洁的草地海洋

图片图片

动物主题相对复杂一些,模型们一般需要猜4-5轮,比如大象这题:

图片

游戏整体效果非常棒,网友们也是好评如潮:

图片

你画我猜项目起源

模型画画早已不是新鲜事,但让大模型玩你画我猜?这天才想法是怎么产生的?

首先,不得不提到Simon Willison的一次测试,他让所有模型绘制自行车上有一只鹈鹕主题的图像,然后进行效果对比。图片

随后Paul Calcraft看到测试,他产生了一个想法:这样一个个比对太慢了,效果也不好,既然都画同一个主题,为什么不让大模型玩你画我猜的游戏呢?图片

没想到这位小哥说干就干,1天后就发布了“你画我猜”的0.0.1版(这令人羡慕的执行力)。

图片

游戏中,他设定回答的模型每2秒猜测一次,回答更快的模型会更快返回答案。

网友评价褒贬不一

不少网友表示,之前大模型在《我的世界》里面比赛盖楼,令人印象深刻,而你画我猜可能成为新的视觉benchmark

还有人热心地提出了优化建议,比如以答对互相题目的速度作为评分准则,或者加入人类成绩作为参考。

图片

还有人提议将游戏变成对抗式训练,这样大模型会进步更快。

图片

不过,抛去趣味性,也有网友持负面观点,表示不理解这个项目的意义。

图片

有网友调侃说,这个游戏的作用就是成为未来AI考古时的文物,帮助它们了解自己的起源。

好嘛,咱们AI有自己的洞穴壁画(doge)。

图片

不过,游戏化学习(Learning through play)其实是教育理论和心理学中的一个重要术语。

图片多位网友表示,小孩子也是通过玩游戏来提升智力、学习技能的,或许这可以成为训练大模型的新方式。图片图片

虽然这次只有6轮游戏,参与的模型也有限,但确实是一次很有趣的实践。

作者Paul Calcraft也表示会继续更新这个游戏,包括分数显示、更多的游戏主题等等,期待更多后续!

相关资讯

OpenAI 最强推理模型、能够“思考”图片,o3 和 o4-mini 正式发布

OpenAI 官方介绍称,这是其在 o 系列模型中最新训练的成果,可以在回答前进行更长时间的思考,也宣称是“迄今为止 OpenAI 发布的最智能的模型”,代表了 ChatGPT 能力的一次重大飞跃,从好奇的用户到高级研究人员都将因此受益。
4/17/2025 1:27:45 AM
汪淼

Transformer革新药物研发:TRACER框架实现反应感知的分子设计与合成优化

编辑 | 2049药物研发周期长、成本高是制药行业面临的重大挑战。 据统计,一个新药从研发到上市平均需要 12 年时间,投入高达 26 亿美元。 为提升研发效率,深度学习在分子生成领域取得了显著进展。
2/26/2025 3:52:00 PM
ScienceAI

聊聊SpringAI流式输出的底层实现?

在 Spring AI 中,流式输出(Streaming Output)是一种逐步返回 AI 模型生成结果的技术,允许服务器将响应内容分批次实时传输给客户端,而不是等待全部内容生成完毕后再一次性返回。 这种机制能显著提升用户体验,尤其适用于大模型响应较慢的场景(如生成长文本或复杂推理结果)。 技术实现在 Spring AI 中流式输出的实现有以下两种方式:通过 ChatModel 实现流式输出。
4/24/2025 12:00:00 AM
磊哥