实时 Pk、“蒙面“ 对垒、大众点评、定期排名...... 就问敢不敢揭榜?
字节版 GPTs “扣子”上线后,五年级小学生都能创建自己的英语外教。
“扣子”有一个相当大的优势,就是支持国内知名大语言模型作为底座,还免费,许多 “AI bot" 孕育而生。
不过,无限续杯也有烦恼。“学霸”这么多,挑谁最合适?看跑分?不太懂,也飘渺。要不,大家现场"全开麦“ PK一下?
“扣子”已经把舞台搭好。一个相当刺激的新功能“模型广场”,上线了。
一、“模型广场”:评测玩出盲盒的乐趣
“扣子”支持国内多个知名主流大语言模型作为底座,最新名单除了自家的豆包、通义千问、MiniMax、Moonshot ,新增了智谱 GLM-4 、百川智能 Baichuan4 两员大将。
名单不断更新中,截图时间6月13日
模型参数、架构各有千秋,特点、擅长领域、生成风格也不尽相同。一位小朋友用“扣子”做手抄报 Bot 时,就问过一个难倒大人的问题,这些“人”,该选谁啊?谁擅长做手抄报呢?
现在,有了官方指引——一个在线大语言模型对比与评估系统“模型广场”,大伙儿“物尽其用”的难度会小很多。
你可以将 “模型广场”视为一个类似“歌手”的竞技舞台,大语言模型“选手”可以不同方式 PK。每一轮对战结束,由观众(用户)给结果投票,看谁表现更好。
为避免先入为主,“选手”匿名出战,用户投票后才会亮出真实身份。
“模型广场”支持三种对战模式。
一个是指定 Bot 对战。我们在 Bot 列表中选了一个感兴趣的 Bot “数学老师”。
“扣子”会随机选取两个匿名模型,基于“数学老师” 既有工作流、知识库等能力配置,回答我们挑选的“容斥”问题(如下图)。
我们人工算出答案 “7”。首先,算出至少参加一科竞赛的人数(15+8+6 -3*2)。然后,从班级总人数 30 中减去这个结果(30-23),即可。
模型 A 很快有了答案,思路清晰简单,答案正确。
模型 B 把“思考”过程写得很详细、很复杂,但结果不对。
评估结果,有四个选项可选:
我们认为“ A 表现更好”,投票后,谜底揭晓。
第二个是随机 Bot 对战。
如果说,指定 Bot 对战适合评估不同“选手”在指定岗位(比如数学教学)上的业务能力。那么,随机 Bot 对战就是现场抽题、即兴发挥,评测“选手”任意业务场景下的能力,综合能力要求更高。
随机 Bot 对战模式下,“扣子”(不再是用户)会从上架的 Bot 中随机选一个出战。我们被随机分配到“军事大模型评估”专家。
“扣子” 会随机选择两个匿名模型,基于“军事大模型评估专家” Bot 的编排、工作流、知识库等能力配置,回答我们的问题。
如何看待孙子兵法的价值?模型 A 的回答,有些片面。
相比之下,模型 B 的回答更为深入、全面。
这一票给 B ,谜底揭晓。
第三个是纯模型对战。
前两个对战模式都是基于 Bot ,“选手”会借助工作流等 Bot 配置来完成任务。
纯模型对战考验的是大模型“裸”的文本生成能力,Bot 配置带来的影响都被清空。
针对“老问题”,模型 A 像粗心的小朋友。
思路对、甚至算式都对,结果计算错误(29-6=24?),功亏一篑:
模型 B 简单利落地解决了问题。
Wait,这答题风格看着眼熟,好像见过?
投票给 B ,谜底揭晓。看来, Baichuan4 数学能力确实强一些:
其实,用过 Quora AI 聊天应用 Poe 的人,对“纯模型对战“不会陌生。Poe 接入了不少炙手可热的大模型,可以针对同一任务,直接比较不同大模型的结果(但不设投票)。
看看这些回答,如果接入“模型广场” PK ,GPT-4o 也不见得稳操胜券。
二、为何大模型需要“大众点评”?
纸面指标好的模型,不一定在实战中表现优秀。
开发者和普通用户追求的是应用落地,在“模型广场”,他们可以直接比较“选手”在真实、具体业务场景下表现,多维度评估能力,选择最合适的一个。
当然,还有一个关键,不用自己掏钱!
比如,几轮 PK 后,我们发现 Baichuan4 数学能力突出,如果要做数学作业 Bot ,肯定会优先考虑它;如果辅导低年级语文学习 Bot ,我们会考虑豆包。
通义千问-Max 文本写作突出,一份书单推荐也能写得文采飞扬,看来适合做手抄报设计 Bot 的底座。
如果要找“六边形战士” ,最好三种对战模式都玩到。你会体感到,有的模型的回答切中要害,但言简意赅;有的回答丰富详尽,但稍显啰嗦;有的擅长多轮对话理解用户意图,但知识覆盖明显不足。多轮 PK,总能找到最靠近需求的一个。
除了实战"亲测",“模型广场”还会定期推出大语言模型排行榜。和一些常见大语言模型性能榜单相比,它有两个明显不同。
一个是动态更新,可以持续纳入新的评测任务和真实用户反馈,及时反映模型的表现和进步。
另一个就是基于人类偏好,就像一个大模型的“大众点评” 。
其实,LMSYS Org 的大模型竞技场 Chatbot Arena 已经尝鲜在前,成为引用次数最多的大语言模型排行榜之一,被领先的大模型开发商和公司广泛引用。
至于为什么要纳入人类偏好,“扣子”也有自己的解释:
“对于 Chat-GPT 等对齐过人类偏好的对话模型,往往需要一些半开放或开放式问题才能合理评估模型能力,传统 LLM 基准测试框架在这种场景下可能会略有不足。”
这是“扣子”推荐的一些赛题。
第一题是一个开放性问题,评估“今朝晴朗可喜”短文,不同评估者可能对同一篇文章有不同的看法和评分标准。
第五题属于半开放,对于 Tracy 是否应该支付生父的医疗费用,不同评估者的道德观和价值观可能不同,导致对答案的评价产生较大差异。
传统方法确实拿捏不准答案好坏。一方面,回复的质量无法用客观指标衡量。另一方面,也没有一成不变的评估程序,判断不同 Bot 回答的优劣。
这个时候,对比不同模型的回复是一个补强的办法。另外,就是众包评测。在“扣子”看来,客户自己就能判断出什么是最合适的模型。
当然,“模型广场”为“选手”提供展示机会的同时,也会将压力传给大模型厂商,特别是当自家“娃” 表现不佳、排名靠后时。
如果"模型广场"能带来良性竞争,对行业发展是一件好事。
真实消费场景的数据,能为大模型的优化提供参考。评分排名,可以帮助厂商判断自己在行业中的位置,以及与竞品的差距。
“模型广场"聚集了大量对模型性能有强需求的开发者用户,对于模型表现突出、口碑良好的厂商而言,这意味着广阔的潜在客户群体。
通过"模型广场",开发者们可以充分“把脉”前沿大模型,快速开发和迭代各种创新应用,将 AI 生成能力嵌入到各行各业的场景应用,蓬勃 AIGC 生态。
三、“这东西,你真能用得上!”
“模型广场”上线时,扣子还联合 Intel 推出的一个主题 Bot 征集活动,叫扣子 AI 工坊( Coze AI Factory )。
聚焦图文创作、实用工具、互动创意三个赛道,未成年人也能参与,还有上万元奖金可以拿。
“扣子” 定位在平台,不难看出,为求取最大的使用量,他们将心思都倾注在了 “你也能上手 DIY ”。
确实,毫无编程背景,我们曾在一分钟内搞定一个 Bot,尽管是“毛坯”。
“装修”也不费力。因为,为拓展 Bot 的各种技能,插件甚至开发者关心的工作流都有了商店。你要做的就是“选中”+“添加”。
除了技能插件,还有知识库、数据库、长期记忆等,让 “AI Bot ”变得更加个性化和本地化。
为了有更好的交互体验,”扣子”还支持配置开场白、快捷指令、背景图片、语音等。
当然,最特别的一点是,“扣子”可以将构建的 Bot 直接发布到飞书和微信等平台,无缝嵌入到你的生产力工具中。
至此,除了力压开发难度和成本,“扣子”又将 AI 应用的运营难度、成本,一降再降,并完成闭环。
经历了过去一年的大语言模型热,国内的玩家们也都明白,产品要有商业落地才能活下去。
最近有新闻报道,在过去六个月时间里,OpenAI 年收入增长了一倍多,大部分收入来自 ChatGPT 等聊天机器人订阅费,以及软件开发人员付费访问模型 API 。
字节也为 AIGC 产品规划了两条路径,一个是赋能既有业务,另一个就是卡位不同赛道,开发对应的 AI 原生产品。“扣子”正是面向大模型 C 端应用做的探索。
在强大技术实力、丰富的数据资源和广泛应用场景加持下,期待“扣子”接下来的一路生花。
参考链接
https://www.coze.cn/model/arena?bid=6cqv06psk9000&utm_source=jqzx