大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

作者：量子位

2024-11-04 08:40

一群大模型玩你画我猜，人类一旁围观超起劲儿。就像下面这张图展示的，由Grok画长颈鹿，一堆大模型根据生成内容猜答案。参赛选手包括GPT-4o、Claude、Llama、Gemini、Grok等。

一群大模型玩你画我猜，人类一旁围观超起劲儿。

就像下面这张图展示的，由Grok画长颈鹿，一堆大模型根据生成内容猜答案。参赛选手包括GPT-4o、Claude、Llama、Gemini、Grok等。

其实这是最近爆火的一种新的测试基准（doge）。

游戏结果一定程度上能反映出大模型能力，比如这组测试一共进行了6局游戏，表现最好的是Claude：它赢了3次！

GPT-4o表现有点抽象。就它画的这龙卷风，人类也看不懂。

不止如此，在很多轮游戏中，其他模型都在认认真真地答题，而它的第一个回答经常是Circle？？有点子抽象。

所以有人就说，这游戏可以当测试基准来用啊。

还有人表示，AI照这个速度发展，人类就只能当围观的瓦力了。

来看看更多有趣的例子

在比较简单的题目上，所有模型都在一两个回合中就猜对了答案，比如下面的房子：

还有非常简洁的草地、海洋：

动物主题相对复杂一些，模型们一般需要猜4-5轮，比如大象这题：

游戏整体效果非常棒，网友们也是好评如潮：

你画我猜项目起源

模型画画早已不是新鲜事，但让大模型玩你画我猜？这天才想法是怎么产生的？

首先，不得不提到Simon Willison的一次测试，他让所有模型绘制自行车上有一只鹈鹕主题的图像，然后进行效果对比。

随后Paul Calcraft看到测试，他产生了一个想法：这样一个个比对太慢了，效果也不好，既然都画同一个主题，为什么不让大模型玩你画我猜的游戏呢？

没想到这位小哥说干就干，1天后就发布了“你画我猜”的0.0.1版（这令人羡慕的执行力）。

游戏中，他设定回答的模型每2秒猜测一次，回答更快的模型会更快返回答案。

网友评价褒贬不一

不少网友表示，之前大模型在《我的世界》里面比赛盖楼，令人印象深刻，而你画我猜可能成为新的视觉benchmark！

还有人热心地提出了优化建议，比如以答对互相题目的速度作为评分准则，或者加入人类成绩作为参考。

还有人提议将游戏变成对抗式训练，这样大模型会进步更快。

不过，抛去趣味性，也有网友持负面观点，表示不理解这个项目的意义。

有网友调侃说，这个游戏的作用就是成为未来AI考古时的文物，帮助它们了解自己的起源。

好嘛，咱们AI有自己的洞穴壁画（doge）。

不过，游戏化学习（Learning through play）其实是教育理论和心理学中的一个重要术语。

多位网友表示，小孩子也是通过玩游戏来提升智力、学习技能的，或许这可以成为训练大模型的新方式。

虽然这次只有6轮游戏，参与的模型也有限，但确实是一次很有趣的实践。

作者Paul Calcraft也表示会继续更新这个游戏，包括分数显示、更多的游戏主题等等，期待更多后续！

相关资讯

OpenAI 最强推理模型、能够“思考”图片，o3 和 o4-mini 正式发布

OpenAI 最强推理模型、能够“思考”图片，o3 和 o4-mini 正式发布

OpenAI 官方介绍称，这是其在 o 系列模型中最新训练的成果，可以在回答前进行更长时间的思考，也宣称是“迄今为止 OpenAI 发布的最智能的模型”，代表了 ChatGPT 能力的一次重大飞跃，从好奇的用户到高级研究人员都将因此受益。

4/17/2025 1:27:45 AM

汪淼

Transformer革新药物研发：TRACER框架实现反应感知的分子设计与合成优化

Transformer革新药物研发：TRACER框架实现反应感知的分子设计与合成优化

编辑 | 2049药物研发周期长、成本高是制药行业面临的重大挑战。据统计，一个新药从研发到上市平均需要 12 年时间，投入高达 26 亿美元。为提升研发效率，深度学习在分子生成领域取得了显著进展。

2/26/2025 3:52:00 PM

ScienceAI

聊聊SpringAI流式输出的底层实现？

聊聊SpringAI流式输出的底层实现？

在 Spring AI 中，流式输出（Streaming Output）是一种逐步返回 AI 模型生成结果的技术，允许服务器将响应内容分批次实时传输给客户端，而不是等待全部内容生成完毕后再一次性返回。这种机制能显著提升用户体验，尤其适用于大模型响应较慢的场景（如生成长文本或复杂推理结果）。技术实现在 Spring AI 中流式输出的实现有以下两种方式：通过 ChatModel 实现流式输出。

4/24/2025 12:00:00 AM

磊哥

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Figma 推 AI 革命：开发智能应用制作器与网站创建工具即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 Persona Engine开源发布，AI虚拟助手与Live2D融合打造交互新体验

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora 3D Anthropic AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测百度人形机器人伟达苹果 Transformer 深度学习模态 xAI 字节跳动 Claude 大语言模型搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视频生成安全干货合集视觉应用大型语言模型科技亚马逊特斯拉 AGI 训练 2024

顶部