AI 到底有多强?万字干货盘点最新大模型应用和动态!

前言 距离上次写大模型应用的文章已经过去了大半年:​这期间 AI 如火如荼,虽然我个人感知大模型应用生态并没有太多变化,但还是想记录下近期在大模型应用现象上的观察和浅显见解。 这篇文章会从 GPTs、大模型中间层(Dify、Coze)、大火的虚拟社交(Character.AI 等)聊到 AI Agent、大模型的多模态能力、产品推荐,涵盖了 23 年下半年至今大模型应用领域的最新进展。 一、Chatbot 是自然衍生的产品形态 1. GPTs 2023 年 11 月的 OpenAI 开发者大会上,OpenAI 推出

AI 到底有多强?万字干货盘点最新大模型应用和动态!

前言

距离上次写大模型应用的文章已经过去了大半年:​

这期间 AI 如火如荼,虽然我个人感知大模型应用生态并没有太多变化,但还是想记录下近期在大模型应用现象上的观察和浅显见解。

这篇文章会从 GPTs、大模型中间层(Dify、Coze)、大火的虚拟社交(Character.AI 等)聊到 AI Agent、大模型的多模态能力、产品推荐,涵盖了 23 年下半年至今大模型应用领域的最新进展。

一、Chatbot 是自然衍生的产品形态

1. GPTs

2023 年 11 月的 OpenAI 开发者大会上,OpenAI 推出了 GPTs,其本质是鼓励用户对 ChatGPT 进行 Prompt、数据深度定制并分享给社区中的其他用户使用(有些 Notion 社区创作者分享、售卖模板的意思),也减轻其他用户定制成本。此外,GPTs 配置过程十分简单,用户无需拥有代码能力,只需要定义好需求场景、定义好 Prompt 就可以完成初步定制。而想要 GPTs 更好用,则可以上传一些知识库数据,调用其他产品的 API。总体来说开发成本远低于 APP 和网页。

分享一个详细的 GPTs 配置教程:GPTs 从入门、进阶、实践到防护的万字教程

当视频在手机上无法加载,可前往PC查看。

开放以来,GPTs 的创建和使用一直受到 GPT Plus 账户限制,近期开放的 GPT Store 和市场上的排行网站没有太大区别。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

①GPTs 类型

结合了 GPTs 收录网站的信息,目前的 GPTs 大概有如下几类。在这些方面,某些 GPTs 确实被定制成了好用的小工具。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

不过,下面才是我想表达的核心观点:

②面临的挑战

没有创造新的场景,多是在做原有场景的改造

上述网站收录了 8 万多个 GPTs,很多需求小众、场景低频的,用户使用可能只是一时图个新鲜,缺乏持续使用动力。而真正有需求的场景(如数据分析、语言学习、图像生成、PDF 阅读等)则同质化严重(大家很容易想到一块去)、竞争激烈。

此外,大多数 GPTs 解决的诉求离大众消费场景较远、天花板低,难以形成规模效应。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

③GPTs 的产品形态并不占据绝对优势

GPTs 解决的问题和市面上已经在做的各类应用中 AI 助理形态有一定重合,而 GPTs 给用户的心理预期则更像是 ChatGPT 中即用即走的「小程序」。若面向大众消费端,创作者需要将能力进一层封装,产品形态上无法和 App Store 中已经积累了更多用户的应用、更易触达用户的应用去竞争。

打个比方,同样是周报生成器,用户是更愿意使用钉钉、飞书中集成的虚拟助手还是去 GPTs Store 中找到 GPTs 进行使用呢?而应用集成 GPTs 能力只是时间问题。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

图片引用自 Appso

④很多创作者是去薅流量的

很难想象有多少会持续优化知识库提供优质服务。

⑤GPTs 被复制抄袭的门槛太低

不知道这个问题官方何时会出来解决。

⑥OpenAI 不是唯一一家开放 API 的大模型厂商

除非拥有垂直领域的专业知识库和独家数据,否则 Bot 的制作并没有门槛。真要说体验上会有多大差异,普通大众感知不会特别强烈,也就是说大部分用户不会追求产品一定要模型达到 GPT-4 的能力。这就延伸出下面要说的中间层了。

2. 大模型中间层

目前国内比较明星的产品有两个:Dify 于 23 年 5 月推出,字节 12 月上线了类似的产品 Coze。这类产品能够接入多个大模型能力,并通过可视化编排,基于任何 LLM 部署自己版本的 Assistants API 和 GPT。这些产品提供的定制能力是远远强于 ChatGPT 的 GPTs 的,目前还有可免费白嫖的 GPT-4 推荐使用。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

①中间层产品价值

降低集成难度。

中间层提供了简单的 API 接口,开发者可以通过这些接口轻松地将大模型能力集成到自己的产品中,不需要自己训练搭建大模型,也不需要处理与大模型交互的复杂度。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

Coze 还支持发布到多个平台作为 Bot 能力使用,这在开发者看来是非常有吸引力的一项功能

接入多个大模型,隔离大模型更新风险。

中间层可以对下游客户屏蔽大模型版本更新带来的影响,确保产品稳定性。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

提供更多辅助功能。

中间层还可以提供日志、监控、数据标注等辅助功能,为开发者提供更多价值。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

②Coze

在 Coze 中可以看到公开的 Bots 及 Bots 的详细设置:

AI 到底有多强?万字干货盘点最新大模型应用和动态!

AI 到底有多强?万字干货盘点最新大模型应用和动态!

图为一个仅靠 Prompt 和 Plugins 定制的推荐 B 站视频的 Bot

③定制案例:AI 趋势总结 Bot

参考 Bilibili Assistant,我想尝试定制一个能为我总结 AI 领域最新趋势的 Bot。构建前可以先阅读 Coze 产品文档,比如官方给出了 Prompt 的写法建议:

AI 到底有多强?万字干货盘点最新大模型应用和动态!

首先,填写创建 Bot 的简单信息,头像可以使用 Coze 内置的 AI 能力生成:

AI 到底有多强?万字干货盘点最新大模型应用和动态!

Coze 中有许多已经内置好的 Plugins,我在此选择 Google 和 X 两个 Plugins:

AI 到底有多强?万字干货盘点最新大模型应用和动态!

按照官方建议撰写 Prompt,并且在右侧对话框进行测试,我的 Prompt 经过了大概 4-5 版的迭代:

AI 到底有多强?万字干货盘点最新大模型应用和动态!

迭代记录:

AI 到底有多强?万字干货盘点最新大模型应用和动态!

设置开场白、定时任务的功能:

AI 到底有多强?万字干货盘点最新大模型应用和动态!

④测试效果

经过我的测试,用 Coze 简单定制的 Bot 回复效果已经比 Perplexity 的效果好,特别是在调用 Google 搜索的结果上给了我很大的惊喜:

测试一:询问 24 年的 AI 产品更新

AI 到底有多强?万字干货盘点最新大模型应用和动态!

测试二:询问 MJV6 版本更新的具体内容

AI 到底有多强?万字干货盘点最新大模型应用和动态!

测试三:检索 X 推文

在 X 内容的总结上,回复时好时坏,只能达到 5 成可用状态。出现了一些啼笑皆非的状况,比如分不清 Adobe AI 和人工智能 AI,同样的问题过几天问返回的结果也一模一样等。我猜测这些问题是由于 Coze 中没法接入我的 X API Key 导致的,Prompt 的方式也让我无法更准确的定义接口调用方式。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

定制这个 Bot 的初衷是当作 X 趋势生成器使用的,结果无心插柳柳成荫,做成了可以白嫖无限 GPT-4 额度的且比 Perplexity 更好用的 AI 搜索引擎,我已经在频繁使用了。

总的来说,Coze 的能力很复杂也很强大,但在深度定制 Bot 的能力上缺乏详细的指引,字节官方的文档虽然详细但对于多任务处理、Prompt 调试等没有给出更多建议,Plugin 部分的文档非技术人员看着还挺头晕的。帮助用户定制真正好用 Bot,大模型和中间层都还有挺长的路要走。

3. Character.AI 为首的虚拟社交

Chatbot 聊天机器人的赛道卷了多年,这一次在 LLM 的加持下再次爆发,Character.AI 为代表的虚拟陪伴 Chatbot 产品成为了热门赛道之一。许多团队在 GPT 出现之前就已经在筹备相关模型和产品了:Character.AI、Replika、国内团队 Minimax 的 Talkie、星野,都是头部选手,目前众多大厂也已经下场推出竞争产品。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

该方向本质上也是「GPTs」,但是在立绘、对话沉浸感上都经过更多打磨。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

①用户诉求

观察头部产品,大部分用户的诉求围绕在下图这几个方向。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

但当我翻看了小红书、贴吧,又蹲了几个国内内测产品的群后,基本上用户主动晒的内容都和荷尔蒙诉求有关。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

内容来自 36kr,可辅助参考

②数据

目前虚拟陪伴产品的活跃和留存都很惊艳,但付费能力大多处于有待挖掘的状态。结合各方公布的数据,基本上目前粗略估计的情况是:头部产品日活在 100 万+,C.AI 做到了 500 万+;次留基本可以做到 50% 以上,7 留在 30% 上下,是非常可观的。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

图片出自白鲸出海,点点数据

但目前在商业化方面,Chatbot 类产品没有做得特别好。星野、Talkie 模仿了乙女游戏的抽卡付费,但其付费数据的不理想可能是内容过薄导致的。和 Dating 产品相比,Chatbot 产品刚需付费的场景少了很多,更多深度玩法还有待探索。

③产品形态

Replika 做重虚拟角色定制过程,强调角色唯一性。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

Replika 的定制过程

而 Cai、Talike、星野、筑梦岛等一众产品则是提供众多 Bot 供用户选择,并支持 UGC 创建 Bot 并分发。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

Aura 进入后虽然只有单个角色,但支持开启多个剧本的角色扮演,并且剧本由 AI 生成(降低了重复性)可以体验和较长文本的对话。唯一遗憾的是剧本中的人设、名称上都没有做到统一,让用户产生割裂感,在整体体验上不如乙女游戏中的剧情解锁丰富。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

Aura 的角色扮演

④多模态开始卷起来了

长期来看,模型能力是 Chatbot 类产品的核心,但图片、语音等多模态内容的丰富可以在一定程度上弥补模型能力的不足。

形象

产品表现层上,除了 Replika 使用了 3D 捏人,其他产品还处在快速大批量 AI 图片生产的阶段。(不过就过去一年元宇宙的观察,注重 3D 不一定是一个好方向,迭代速度慢、开发成本高,用户手捏的效率不必切换一个 Bot 低,另外国外的 3D 人物画风总让我觉得怪怪的)毕竟是竞争激烈的 2C 赛道,用户非常「看脸」。

值得一提的是,爱塔的部分 Bot 率先使用了动图,让用户在刷 feeds 时的场景沉浸感更强。在 Pika、SVD 产品控制能力加强的趋势下,未来 Chatbot 立绘的动态化应该很快会被广泛采用。

当视频在手机上无法加载,可前往PC查看。

语音

从表格中可以看到,最新推出的产品基本都配备了 TTS 能力,从数据和体验上看,语音能力能强化有助于用户留存。爱塔、星野在列表停留在某个人物时就会播放开场白,完全不需要看详细的人设就可以对人物有一定带入,美中不足的是对话时无法自动播放语音,否则体验还会更上一层楼。

当视频在手机上无法加载,可前往PC查看。

以下纯属个人浅薄观点记录,不一定严谨准确,欢迎后台留言拍砖交流。

⑤长期使用趋势

在保证模型记忆力的情况下,我认为情感陪伴类用户会在长期的筛选中选择 1-3 个心仪的 Agent 进行长期高频的沟通对话,同时会存在阶段性的替换需求(新鲜感过去了换个更好的聊)。但目前这类产品擦的倾向实在太高,未来国内监管的力度带来的影响不可知。

⑥方向分析和预测

市场情况

总的来说,因为国内监管(对 NSFW 内容的限制)、国内外 2C 用户付费能力的差异(与其他互联网产品不同的是,大模型是有成本的,且短期内不会迅速降下来),大部分从业者应该都不太看好该方向在国内的发展。

AI 到底有多强?万字干货盘点最新大模型应用和动态!

海外 App Store 中这样的虚拟 18+ 产品已经一大把了,而国内毕竟拥有巨大的人口基数,且国内市场乙女向有《恋与制作人》《光与夜之恋》《橙光》等成功案例,加上情感陪伴底层诉求,Chatbot 的国内市场还是存在的。

此外,C.AI 形态的产品崛起让一部分用户涌向成本更低的 AI 虚拟人,极有可能会抢走一部分 IM、Dating APP 的活跃和时长(至于抢走多少可能还要看该赛道产品的未来发展)但倘若 IM、Dating 产品做这件事,又像是搬起石头砸了自己的脚,降低了平台上真实用户的连接机会,也会对已有的产品调性社区文化产生反噬,这里我持长期观望状态。

不过也许未来有天当 AI 内容不再稀缺,用户反而想要回归和真人的社交关系也并非不可能。

产品规模

单纯从国内市场而言,我认为这部分产品吃的是小众垂直强诉求的用户市场,用户量天花板不会特别高(具公开资料显示,Soul、探探巅峰期日活均在大百万级别、恋与日活 18 年 200 万,独立 Chatbot 产品应该不会超过这个上限了),因此其不会是大公司眼里 Top 级别的好生意。

为什么我们会看到大厂全都往这个方向挤?

我猜想还是看中了 CharacterAI 为首的产品拥有可观的留存与时长。今天的 2C 互联网早已变成注意力的生意,除了抖音以外的头部产品无不面临数据下跌带来的焦虑感,而 Chatbot 可能就是一剂短期止痛药。另外一个原因就是竞争对手都在做,无论如何都要入局做主动性防御。不过大公司基本都看重已有用户盘,因此比起做独立 APP,内嵌在已有产品中是更合适的形态。不过说不好未来会不会面临和 OS 系统厂商争抢市场的局面(这些年 OS 厂商在语音助手上的功夫也不是白下的,以及 OS 发布会也需要新的 AI 故事),因此如果真的想做这个方向的产品,更早出发较好。

4. 大厂在 Chatbot 方向上的优势是?

资源整合,辅助已有需求场景

前面提到过,对于已经拥有一定用户量级的产品来说,可以将 Chatbot 能力融合到具体场景,用户的使用会比较顺滑自然。像钉钉这类办公产品接入虚拟助手对话能力、GPTs 去为打工人提效是很有必要的。对于抖音这样的平台,Bot 定制能力适合开放给中小商家、视频直播达人等。比如培训机构、商家可以在 Coze 平台上定制虚拟客服,通过上传知识库让模型了解自家产品概况,在短视频、直播评论区、群聊场景辅助创作者进行问答、评论区互动、私域引流等,提升用户下单转换,能进一步增强抖音电商和群聊的能力。

相关资讯

将大模型能力融入 7 大产品,百度智能云交出「企业大模型应用成绩单」

大模型应用爆发元年,企业如何先卷一步?

WAIC 2024 :容犀智能大模型应用升级发布,助力大模型提升产业效能

7月6日,在2024世界人工智能大会上,容联云成功举办主题为“数智聚合 产业向上”的生成式应用与大模型商业化实践论坛。  论坛上,容联云发布了容犀智能大模型应用升级,该系列应用包括容犀Agent Copilot、容犀Knowledge Copilot、容犀Coach Agent、容犀Insight Agent和容犀Virtual Agent等,覆盖了从营销、销售、服务到企业内部管理的核心场景,为企业打造全面、高效的营销服智能化生态系统。 同时,现场还发布了大模型赋能下的以客户为中心的运营中台ELITE MOS,为企业提供更精准的决策支持与营销策略支持。

AIGC落地实战!有赞如何用Midjourney提高设计效率?

一、项目背景 设计界总是一波未平一波又起,从区块链到元宇宙,这轮风开始吹到 AIGC,什么是 AIGC?AIGC 全称(AI Generated Content)是一种新型的内容创作方式。越来越多数字内容工作过程中,创作者需要不断地学习探索和创新,以满足不断变化的市场需求。(本篇文章只聚焦设计内容生成方向,不展开 ChatGPT 辅助研究能力) 二、AI 在有赞增长实验室实际设计业务中的应用探索 M2L 增长实验室(Marketing To Leads)包含了公域营销(增长工程、广告投放、渠道拓展)、内容营销(内容