闷声狂奔一年,字节大模型的进阶之路

2024 年初,字节跳动 CEO 梁汝波在年会中提到,公司层面的半年度技术回顾里,2023 年才出现 GPT 相关讨论。 作为对比,业内做得比较好的大模型创业公司基本在 2018 年到 2021 年之间已经创立。 简而言之,这场由 Open AI 在 2022 年底发布 ChatGPT 3.5 而掀起的“大模型”盛宴,字节没有成为最早的“入场嘉宾”。

2024 年初,字节跳动 CEO 梁汝波在年会中提到,公司层面的半年度技术回顾里,2023 年才出现 GPT 相关讨论。作为对比,业内做得比较好的大模型创业公司基本在 2018 年到 2021 年之间已经创立。

简而言之,这场由 Open AI 在 2022 年底发布 ChatGPT 3.5 而掀起的“大模型”盛宴,字节没有成为最早的“入场嘉宾”。

其中原因也不难理解,无论从人才密度、GPU 资源,还是技术积累各个层面,字节都有着足够的优势。诚然,字节不是最早参与到大模型研究的公司,但却是为数不多在技术积累和 GPU 资源等维度都有着深厚积淀的公司。

移动互联网初期,今日头条便通过对算法推荐的成熟应用,突破新闻门户网站的束缚。从此,信息流产品成为各家互联网公司追逐的模仿对象。

如今,字节终于揭开自研大模型的“神秘面纱”。5月15日,火山引擎春季Force·原动力大会上,字节跳动首次对外正式发布自研大模型:豆包大模型(原云雀大模型)家族集体亮相。

尽管不少圈内人已经听闻字节的大模型或创新低价格,但当火山引擎总裁谭待正式对外宣布价格时,豆包大模型还是给 AI 界来了一点小小的“字节式”震撼。

闷声狂奔一年,字节大模型的进阶之路

火山引擎春季Force·原动力大会现场,参会者争相拍摄豆包大模型价格

大模型竞争的本质是终端心智和应用场景多元化

年初有媒体发文指出:“抖音旗下的 AIGC 应用豆包月活 1756.9 万,超越 1212.5 万月活的文心一言。”

根据 QuestMobile 最新数据,2024 年 3 月,豆包月活用户已达到 2328.2 万,甩开文心一言近千万。文心一言以及天工、讯飞星火、Kimi智能助手月活跃用户分别为1466.1万、966.1万、620.4万、589.7万。

当时,本文作者身边也看到过不少安利豆包产品的用户。部分带娃家长直言:“豆包太有趣了,现在孩子每晚回来都要跟豆包对话一会儿,问各种问题。”

移动互联网时代,字节跳动做出了今日头条、抖音这样的全民产品;大模型浪潮起来以后,不少人都坐等一个 AI 时代的抖音。

无论业内人士把大模型谈的多“花”,其归根到底,还是要让所有的普通人用起来,而不是仅限于圈内的狂欢。从这个角度来看,大模型竞争的本质,是终端心智的争夺。

就眼下的情况来看,豆包毫无疑问有这个潜力和机会。这款去年才推出的产品,仅仅用不到一年就已经显示出在同类产品中强大的竞争力。

在 5 月 15 号的火山引擎春季Force·原动力大会上,字节跳动产品与战略副总裁朱骏分享了豆包 APP 的一些趣事和思考。

比如,关于这个看起来一点“科技感”没有的名字,有用户解释为抖音的官方bot——“抖bot”的谐音;还有用户解释为“都包了”,工作生活学习的需求都包了。

以至于后来,在被问到豆包名字的含义,朱骏也会用这两个答案。

实际上,正式命名以前,字节的大模型团队有一个期望,产品的名字,能够像用户对一个亲密朋友日常称呼的昵称。在这个方向下,团队列了很多名字,很快选中豆包。朱骏风趣地说到:“反正以后如果有更好的名字也还可以改嘛。”

用户数方面,豆包官方数据显示,其移动和桌面双端月活跃用户已经超过 2600 万。同时,这些用户共同创造了 800 多万个智能体。

发布会上,字节首次对外披露了其自研的底座大模型,取名为豆包大模型,也就是此前一直被外界提及的云雀大模型。

闷声狂奔一年,字节大模型的进阶之路

豆包大模型家族

豆包 APP,只是豆包大模型应用的一个侧面。

基于豆包大模型,字节跳动还打造了 AI 应用开发平台“扣子”、互动娱乐应用“猫箱”、AI 分身创作应用“星绘”等一系列产品。

此外,抖音、番茄小说、飞书、巨量引擎等 50 余个业务也都已经接入豆包大模型,用以提升效率和优化产品体验。这些产品中不乏亿级的用户和内容,抖音每天有 7 亿多用户以及丰富的图文短视频内容,番茄小说每天也有近 1 亿用户。

这还仅仅是字节内部产品的使用。

悄然间,OPPO小布助手、荣耀 MagicBook 的 YOYO 助理、华硕笔记本电脑豆叮AI助手、极氪汽车的座舱大模型等均已接入字节的大模型服务。

基于豆包大模型,字节在今年2月上线了 AI 应用开发平台“扣子”。仅仅三个月过去,招商银行、海底捞火锅、超级猩猩、猎聘、飞鹤等企业已经在扣子上搭建智能体并应用。复旦大学、浙江大学等名校也为课程和实验室搭建了 AI“助教”。

从 C 端的豆包 APP 用户,到 B 端的千行百业,豆包大模型不仅使用量大,应用场景之丰富也可见一斑。根据火山引擎总裁谭待介绍,目前,豆包大模型日均处理文本 1200 亿 Tokens,生成 3000 万张图片。

业内普遍认为,一般而言,大模型的使用量越大,效果也就越好,这给了豆包大模型更大的底气。“大的使用量,才能打磨出好模型。”谭待也直言。

豆包“击穿最低价”,大模型或将进入新浪潮

无论是 C 端用户使用体验,还是 B 端应用场景,真正落地成为全民应用的基础都需要足够低的价格。

这就好比,4G 网络普及加速了流量成本降低,并促成智能手机的普及,又进一步加速了视频等终端 APP 的爆发式增长。

对于当下企业而言,使用大模型能够促成效率的提升几乎是确认的,但大模型的投入一直以来都非常大,而企业在投入一个新的创新领域时,必然首先要考虑成本问题。

或许正是由于价格因素,过去一年多,大模型虽然引发了全行业的热潮,但真正投入使用的仍然只有少数企业。

在这一背景下,豆包大模型此次官宣的价格能够成为行业焦点也就不足为奇了。

5月15日的发布会上,谭待宣布豆包大模型价格的那一瞬间,掌声响彻整个会场,也将这场发布会推向高潮。

闷声狂奔一年,字节大模型的进阶之路

火山引擎总裁谭待公布豆包大模型定价

豆包大模型的价格有多惊人?

豆包主力模型 Pro-32k 版本模型推理输入价格只有 0.0008元/千Tokens,0.8 厘就能处理 1500 多个汉字,比行业同等模型便宜 99.3%;128k 型号价格为 0.005元/千Tokens,比行业价格低 95.8%。

更形象的说法是,根据火山引擎公布的价格计算,以 Pro-32k 版本为例,一元钱就能买到 125 万 Tokens,大约 200 万个汉字,相当于三本《三国演义》。

看到这样的价格,不少人觉得,豆包大模型在“以亏损换市场”。但在会后的媒体采访中,谭待表示:“用亏损换收入是不可持续的,我们从来不走这条路子。敢于定价这么低,是因为我们对优化推理成本的技术能力很有信心。”

关于为什么定这样的价格,谭待表示是基于两方面因素:一是能做到,二是需要这么做。

一方面,通过模型结构的优化、分布式推理、混合调度等举措,极大压低了大模型的推理成本。模型调用量越大,成本优化空间就越大。以字节业务为例,飞书的主要流量高峰在工作时间,抖音在下班后休闲时间的流量更高,这些不同业务的大模型推理,能根据业务特点错峰使用,把资源利用率跑得很高,就可以降低成本。

另一方面,今年以来,大模型能力得到极大提升以后,应用将是一个非常重要的环节。当下市场,很多企业有尝试大模型的想法,但因为不确定性的风险,多少有些畏手畏脚。只有价格降低到一定程度,试错成本足够低,更多的企业才会加入到大模型的应用中。

不久前,零一万物 CEO 李开复表示,大模型推理成本每年降低十倍,这在过去两年已经发生,优化得好更是可以降低二三十倍。

看来,字节对模型推理成本优化的预期也是非常乐观,降价所考虑的就是让大模型尽快在更多应用场景落地。

以大模型应用最广泛的内容产业为例,视频平台往往需要在浩如烟海的剧本中,筛选出优质且适合转换成影视项目的剧本。

假设,现在某公司计划利用大模型做一个 AI 剧本助手,帮助平台把几十万字的剧本提炼出核心要点,并进一步评估剧本可行性。如果想打磨出足够好的效果,可能需要 100 亿 tokens 的推理输入。过去,完成这一项目,负责人需要从公司申请 100 多万预算,这对一个中小企业而言并不算少。现在,还是这件事,使用豆包大模型,则只需要 8000 块钱。显然,这是一个几乎所有公司都能接受的价格。

换言之,曾经,很多创意想法可能因为大模型应用成本被拒之门外;现在,豆包大模型将价格打下来以后,成本极低,企业和创业者们不再因此而受到束缚,就更有机会找到好的落地场景,整个行业的蛋糕也会越做越大,从而形成价格低→ 使用量大 →落地场景丰富→应用效果好的正向循环。

经济学上,有一个专业术语叫做规模经济,意为在一定产量范围内,伴随产量增加,平均成本不断降低的现象。其原因在于,产量增加会带来一个结果,每多生产一单位产品的成本(边际成本)不断降低。

回到科技领域,同样存在类似的效应。互联网出现以后,流量成本不断降低,信息的分发成本几乎接近 0,今日头条、抖音都是其中的受益者。而现在,大模型正在加速 AI 应用的新一轮浪潮。

a16z 的合伙人 Martin Casado 曾在演讲中提到,从基本的经济分析来看,大模型将创造的边际成本降到了零,比如创建图像和语言理解。

业内都在期待大模型重塑互联网产品,这一切的前提是,它的价格足够低。现在,豆包大模型已经打了个样。

豆包“遇上”火山方舟,一场大模型的自我革新

在惊讶于低价的同时,不少企业可能担心模型的推理效果是否能够满足使用需求。

关于这一点担忧,其实答案在前文中已经有所暗示。不少用户应该都已经使用过字节面向 C 端的 AIGC 产品豆包,效果如何相信每个人都有体会。若是效果不好,它的用户数也不可能在短短一年间冲到同行业产品 TOP1。

又如,字节最近推出的 AI 分身创作产品星绘,大家也可以上手使用体验。

除了 AI 原生应用,抖音、今日头条、飞书等不少字节的产品都大量的使用了大模型。今日头条内嵌的 AI 工具不仅为用户提供了对话功能,还有笔记创作、梦境解读、创业指导等能力。

如今,不少互联网企业在发布大模型产品时,动辄喜欢加一句“超越 GPT 4”之类的说法。但整个发布会,豆包大模型都没有提到 GPT,这反而显示出谭待以及豆包整个团队的自信。

在被问及,豆包大模型和 Open AI、谷歌等海外公司的差别时,谭待笑着说道:“我可以很实事求是地讲,openAI肯定还是全球第一, anthropic、Gemini 也都做得非常好,这个差距首先是要承认的。”

与此同时,谭待也表示,虽然有差距,但是我们追的速度还是可以的。豆包的原生应用和体验越来越好,用户量也越来越大,这是比较重要的。一个最佳实践是,越来越多的人去做更多的应用,反过来又可以驱动技术的进步,从而形成一个正循环。而这些,国内目前还没有形成,但从今天以后,它可能会越来越快。

除了豆包等 C 端大模型产品,字节跳动还针对大模型推出了新一代 AI 应用开发平台——扣子专业版,具备低门槛、个性化、实时性、多模态等优势,并集合海量的 AI 资源、丰富的发布 API 服务。招商银行、海底捞等不少传统企业,都成为扣子的用户。

基于扣子和豆包大模型,招商银行搭建了可以推荐餐饮优惠门店的“掌上生活”bot,以及能汇总市场行情的“财富看点”bot。

通过使用豆包大模型,海底捞搭建了顾客评价分析模型,并将其应用于服务质量、菜品质量、经营管理的优化迭代。

在下午大消费分论坛上,海底捞信息科技部负责人杨炫之分享了海底捞的 AI 系统建设,他提到,AI 在餐饮企业的应用主要包括三方面,基于图文作业的重复性劳动(即广告文案等)、成熟模型的预测类工作(货品预测需求等)、相对开放的信息收集。

杨炫之在分享最后坦言,对于海底捞这样的传统企业而言,大模型带给更多的是便利性,或者说我们基础工作的替代,应用范围可能没有那么大。

回到大模型服务侧,作为大模型服务平台,火山方舟为模型训练、推理、评测、精调等提供了全方位功能和服务。在过往的一年多时间里,字节自身已经充分使用体验,支撑了字节的大模型的丰富生态。

火山方舟 2.0 版本,升级了插件、系统承载能力等多个维度。

以 RAG 知识库插件为例,火山方舟 2.0 内置了字节跳动多年实践沉淀的大规模高性能向量检索能力,百亿级别数据可以实现毫秒级检索,支持秒级索引流式更新,可以实现新增数据能够实时检索。知识库插件也内置了豆包向量化模型,文档解析环节集成了飞书优秀的文档解析能力,支持pdf、doc、ppt、excel、txt、markdown等多种复杂类型文档解析能力。

系统承载能力方面,火山方舟 2.0 实现了万卡公有云GPU资源池、5秒接入新建精调模型、3分钟内完成千卡扩容等效果。

谭待表示,全新升级的火山方舟 2.0 不仅提供了抖音、今日头条的搜索和内容插件等丰富的生态资源,还有着充沛的算力资源和极致弹性,保障客户的业务稳定。

前文提到的扣子专业版,已经集成在火山方舟,提供企业级 SLA 和高级特性。

回到起点,豆包已经在 C 端取得了看起来还不错的效果;在 B 端,豆包大模型一上线就因价格而广受关注,火山方舟与豆包大模型会交出怎样的答卷?

结果,或许已经呼之欲出。

相关资讯

大模型价格进入“厘”时代,豆包大模型定价每千tokens仅0.8厘

大模型的性价比之战已经来到了新的阶段。5月15日,2024火山引擎FORCE原动力大会上,火山引擎总裁谭待宣布,字节跳动内部自研的豆包大模型正式在火山引擎上对外开放服务。豆包大模型在价格上主打“极致性价比”:豆包通用模型pro-32k版,推理输入价格0.0008元/千tokens,较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens,相当于三本《三国演义》的输入量。谭待认为,降低成本是推动大模型快进到“价值创造阶段”的一个关键因素。过去一年时间中,许多企业已经从探索尝试大模型,到成功将大模型与核心

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。在这个过程中

耳朵没错,是声音太真了,字节豆包语音合成成果Seed-TTS技术揭秘

Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。它生成的语音几乎与真人完全一样,连发音瑕疵也能生成出来,尤其在学习模仿人类说话方面,相似性和自然度均有很好表现。举例来说,将一段语音提供给 Seed-TTS,它就能按文本生成全新语音,且带上原素材的声音特征。原素材(Prompt):Seed-TTS 生成的中文语音: 突然,身边一阵笑声。我看着他们,意气风发地挺直了胸膛,甩了甩那稍显肉感的双臂,轻笑道:“我身上的肉,是为了掩饰我爆棚的魅力,否则,岂不吓坏了你们呢?”英文语音也可生成,且依然能“复