现在起，真正的强者敢于直面「扣子」的「模型广场」

实时 Pk、“蒙面“ 对垒、大众点评、定期排名...... 就问敢不敢揭榜？字节版 GPTs “扣子”上线后，五年级小学生都能创建自己的英语外教。“扣子”有一个相当大的优势，就是支持国内知名大说话模型作为底座，还免费，许多 “AI bot" 孕育而生。不过，无限续杯也有烦恼。“学霸”这么多，挑谁最合适？看跑分？不太懂，也飘渺。要不，大家现场"全开麦“ PK一下？“扣子”已经把舞台搭好。一个相当刺激的新功能“模型广场”，上线了。一、“模型广场”：评测玩出盲盒的乐趣“扣子”支持国内多个知名主流大说话模型作为底座，最新名

实时 Pk、“蒙面“ 对垒、大众点评、定期排名…… 就问敢不敢揭榜？

字节版 GPTs “扣子”上线后，五年级小学生都能创建自己的英语外教。

“扣子”有一个相当大的优势，就是支持国内知名大说话模型作为底座，还免费，许多 “AI bot" 孕育而生。

不过，无限续杯也有烦恼。“学霸”这么多，挑谁最合适？看跑分？不太懂，也飘渺。要不，大家现场"全开麦“ PK一下？

“扣子”已经把舞台搭好。一个相当刺激的新功能“模型广场”，上线了。

现在起，真正的强者敢于直面「扣子」的「模型广场」

一、“模型广场”：评测玩出盲盒的乐趣

“扣子”支持国内多个知名主流大说话模型作为底座，最新名单除了自家的豆包、通义千问、MiniMax、Moonshot ，新增了智谱 GLM-4 、百川智能 Baichuan4 两员大将。

现在起，真正的强者敢于直面「扣子」的「模型广场」

名单不断更新中，截图时间6月13日

模型参数、架构各有千秋，特点、擅长领域、生成风格也不尽相同。一位小朋友用“扣子”做手抄报 Bot 时，就问过一个难倒大人的课题，这些“人”，该选谁啊？谁擅长做手抄报呢？

现在，有了官方指引——一个在线大说话模型对比与评价系统“模型广场”，大伙儿“物尽其用”的难度会小很多。

你可以将 “模型广场”视为一个类似“歌手”的竞技舞台，大说话模型“选手”可以分别方式 PK。每一轮对战结束，由观众（用户）给结果投票，看谁显露更好。

为避免先入为主，“选手”匿名出战，用户投票后才会亮出实在身份。

“模型广场”支持三种对战模式。

一个是指定 Bot 对战。我们在 Bot 列表中选了一个感兴趣的 Bot “数学老师”。

现在起，真正的强者敢于直面「扣子」的「模型广场」

“扣子”会随机选取两个匿名模型，鉴于“数学老师” 既有工作流、知识库等才智摆设，答复我们挑选的“容斥”课题（如下图）。

现在起，真正的强者敢于直面「扣子」的「模型广场」

我们人工算出谜底 “7”。首先，算出至少参加一科竞赛的人数（15+8+6 -3*2）。然后，从班级总人数 30 中减去这个结果（30-23），即可。

模型 A 很快有了谜底，思路清晰简单，谜底正确。

现在起，真正的强者敢于直面「扣子」的「模型广场」

模型 B 把“思考”过程写得很详细、很复杂，但结果不对。

现在起，真正的强者敢于直面「扣子」的「模型广场」

评价结果，有四个选项可选：

现在起，真正的强者敢于直面「扣子」的「模型广场」

我们认为“ A 显露更好”，投票后，谜底发表。

现在起，真正的强者敢于直面「扣子」的「模型广场」

第二个是随机 Bot 对战。

如果说，指定 Bot 对战适合评价分别“选手”在指定岗位（比如数学教学）上的业务才智。那么，随机 Bot 对战就是现场抽题、即兴发挥，评测“选手”任意业务场景下的才智，综合才智要求更高。

随机 Bot 对战模式下，“扣子”（不再是用户）会从上架的 Bot 中随机选一个出战。我们被随机分配到“军事大模型评价”专家。

现在起，真正的强者敢于直面「扣子」的「模型广场」

“扣子” 会随机选择两个匿名模型，鉴于“军事大模型评价专家” Bot 的编排、工作流、知识库等才智摆设，答复我们的课题。

如何看待孙子兵法的价值？模型 A 的答复，有些片面。

现在起，真正的强者敢于直面「扣子」的「模型广场」

相比之下，模型 B 的答复更为深入、全面。

现在起，真正的强者敢于直面「扣子」的「模型广场」

这一票给 B ，谜底发表。

现在起，真正的强者敢于直面「扣子」的「模型广场」

第三个是纯模型对战。

前两个对战模式都是鉴于 Bot ，“选手”会借助工作流等 Bot 摆设来完成任务。

纯模型对战考验的是大模型“裸”的文本生成才智，Bot 摆设带来的影响都被清空。

现在起，真正的强者敢于直面「扣子」的「模型广场」

针对“老课题”，模型 A 像粗心的小朋友。

思路对、甚至算式都对，结果计算错误（29-6=24？），功亏一篑：

现在起，真正的强者敢于直面「扣子」的「模型广场」

模型 B 简单利落地解决了课题。

现在起，真正的强者敢于直面「扣子」的「模型广场」

Wait，这答题风格看着眼熟，好像见过？

投票给 B ，谜底发表。看来， Baichuan4 数学才智确实强一些：

现在起，真正的强者敢于直面「扣子」的「模型广场」

其实，用过 Quora AI 聊天使用 Poe 的人，对“纯模型对战“不会陌生。Poe 接入了不少炙手可热的大模型，可以针对同一任务，直接比较分别大模型的结果（但不设投票）。

看看这些答复，如果接入“模型广场” PK ，GPT-4o 也不见得稳操胜券。

现在起，真正的强者敢于直面「扣子」的「模型广场」

二、为何大模型需要“大众点评”？

纸面指标好的模型，不一定在实战中显露优秀。

开发者和普通用户追求的是使用落地，在“模型广场”，他们可以直接比较“选手”在实在、具体业务场景下显露，多维度评价才智，选择最合适的一个。

当然，还有一个关键，不用自己掏钱！

比如，几轮 PK 后，我们发现 Baichuan4 数学才智突出，如果要做数学作业 Bot ，肯定会优先考虑它；如果辅导低年级语文学习 Bot ，我们会考虑豆包。

通义千问-Max 文本写作突出，一份书单推荐也能写得文采飞扬，看来适合做手抄报设计 Bot 的底座。

如果要找“六边形战士” ，最好三种对战模式都玩到。你会体感到，有的模型的答复切中要害，但言简意赅；有的答复丰富详尽,但稍显啰嗦；有的擅长多轮对话理解用户意图，但知识覆盖明显不足。多轮 PK，总能找到最靠近需求的一个。

除了实战"亲测"，“模型广场”还会定期推出大说话模型排行榜。和一些常见大说话模型性能榜单相比，它有两个明显分别。

一个是动态更新，可以持续纳入新的评测任务和实在用户反馈，及时反映模型的显露和进步。

另一个就是鉴于人类偏好，就像一个大模型的“大众点评” 。

其实，LMSYS Org 的大模型竞技场 Chatbot Arena 已经尝鲜在前，成为引用次数最多的大说话模型排行榜之一，被领先的大模型开发商和公司广泛引用。

至于为什么要纳入人类偏好，“扣子”也有自己的解释：

“对于 Chat-GPT 等对齐过人类偏好的对话模型，往往需要一些半开放或开放式课题才能合理评价模型才智，传统 LLM 基准测试框架在这种场景下可能会略有不足。”

这是“扣子”推荐的一些赛题。

现在起，真正的强者敢于直面「扣子」的「模型广场」

第一题是一个开放性课题，评价“今朝晴朗可喜”短文，分别评价者可能对同一篇文章有分别的看法和评分标准。

第五题属于半开放，对于 Tracy 是否应该支付生父的医疗费用，分别评价者的道德观和价值观可能分别，导致对谜底的评价产生较大差异。

传统方法确实拿捏不准谜底好坏。一方面，回复的质量无法用客观指标衡量。另一方面，也没有一成不变的评价程序，判断分别 Bot 答复的优劣。

这个时候，对比分别模型的回复是一个补强的办法。另外，就是众包评测。在“扣子”看来，客户自己就能判断出什么是最合适的模型。

当然，“模型广场”为“选手”提供展示机会的同时，也会将压力传给大模型厂商，特别是当自家“娃” 显露不佳、排名靠后时。

如果"模型广场"能带来良性竞争，对行业发展是一件好事。

实在消费场景的数据，能为大模型的优化提供参考。评分排名，可以帮助厂商判断自己在行业中的位置，以及与竞品的差距。

“模型广场"聚集了大量对模型性能有强需求的开发者用户，对于模型显露突出、口碑良好的厂商而言，这意味着广阔的潜在客户群体。

通过"模型广场"，开发者们可以充分“把脉”前沿大模型，快速开发和迭代各种创新使用，将 AI 生成才智嵌入到各行各业的场景使用，蓬勃 AIGC 生态。

三、“这东西，你真能用得上！”

“模型广场”上线时，扣子还联合 Intel 推出的一个主题 Bot 征集活动，叫扣子 AI 工坊（ Coze AI Factory ）。

聚焦图文创作、实用工具、互动创意三个赛道，未成年人也能参与，还有上万元奖金可以拿。

“扣子” 定位在平台，不难看出，为求取最大的使用量，他们将心思都倾注在了 “你也能上手 DIY ”。

确实，毫无编程背景，我们曾在一分钟内搞定一个 Bot，尽管是“毛坯”。

“装修”也不费力。因为，为拓展 Bot 的各种技能，插件甚至开发者关心的工作流都有了商店。你要做的就是“选中”+“添加”。

现在起，真正的强者敢于直面「扣子」的「模型广场」

除了技能插件，还有知识库、数据库、长期记忆等，让 “AI Bot ”变得更加个性化和本地化。

为了有更好的交互体验，”扣子”还支持摆设开场白、快捷指令、背景图片、语音等。

现在起，真正的强者敢于直面「扣子」的「模型广场」

当然，最特别的一点是，“扣子”可以将构建的 Bot 直接发布到飞书和微信等平台，无缝嵌入到你的生产力工具中。

至此，除了力压开发难度和成本，“扣子”又将 AI 使用的运营难度、成本，一降再降，并完成闭环。

现在起，真正的强者敢于直面「扣子」的「模型广场」

经历了过去一年的大说话模型热，国内的玩家们也都明白，产品要有商业落地才能活下去。

最近有新闻报道，在过去六个月时间里，OpenAI 年收入增长了一倍多，大部分收入来自 ChatGPT 等聊天机器人订阅费，以及软件开发人员付费访问模型 API 。

字节也为 AIGC 产品规划了两条路径，一个是赋能既有业务，另一个就是卡位分别赛道，开发对应的 AI 原生产品。“扣子”正是面向大模型 C 端使用做的探索。

在强大技术实力、丰富的数据资源和广泛使用场景加持下，期待“扣子”接下来的一路生花。

现在起，真正的强者敢于直面「扣子」的「模型广场」

参考链接

https://www.coze.cn/model/arena?bid=6cqv06psk9000&utm_source=jqzx

{{userData.name}}已认证

现在起，真正的强者敢于直面「扣子」的「模型广场」

仅存活三个月的Copilot GPTs，因无盈利希望，被微软强制「退休」

高质量3D生成最有希望的一集？GaussianCube在三维生成中全面超越NeRF

设计素材不用愁！10 组高质量中秋节主题 Midjourney 提示词

全球首个「智能体文明」诞生！一千个智能体在「我的世界」自由发展

顺丰发布“丰语”大语言模型：摘要准确率超 95%，号称物流垂域能力超越通用模型

AI 被连续否定 30 次：ChatGPT 越改越错，Claude 坚持自我，甚至已读不回

研究：反复使用 AI 生成的内容来训练 AI 可造成“模型崩溃”

用60%成本干80%的事，DeepSeek分享沉淀多年的高性能深度学习架构

一只AI吗喽，单挑《黑神话》，歇菜1000次，终于击败首个Boss

夸克发布全新 CueMe 智能对话助手，支持上千种体裁、2 万字长文