大模型价格进入“厘”时代，豆包大模型定价每千tokens仅0.8厘

大模型的性价比之战已经来到了新的阶段。5月15日，2024火山引擎FORCE原动力大会上，火山引擎总裁谭待宣布，字节跳动内部自研的豆包大模型正式在火山引擎上对外开放服务。豆包大模型在价格上主打“极致性价比”：豆包通用模型pro-32k版，推理输入价格0.0008元/千tokens，较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens，相当于三本《三国演义》的输入量。谭待认为，降低老本是推动大模型快进到“价值创造阶段”的一个关键因素。过去一年时间中，许多企业已经从探索尝试大模型，到成功将大模型与核心

大模型的性价比之战已经来到了新的阶段。

5月15日，2024火山引擎FORCE原动力大会上，火山引擎总裁谭待宣布，字节跳动内部自研的豆包大模型正式在火山引擎上对外开放服务。

豆包大模型在价格上主打“极致性价比”：豆包通用模型pro-32k版，推理输入价格0.0008元/千tokens，较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens，相当于三本《三国演义》的输入量。

谭待认为，降低老本是推动大模型快进到“价值创造阶段”的一个关键因素。过去一年时间中，许多企业已经从探索尝试大模型，到成功将大模型与核心营业流结合。不论是探索阶段的小场景试错环节，还是大流量的核心营业流结合环节，大模型老本高昂问题始终是制约大模型在千行百业落地的关键要素之一。

除了老本，企业大模型落地过程中还可能面临的模型后果差、信息安全、算法实践经验少等问题，大模型服务平台火山方舟2.0版本提出了更具体的解决方案，其平台模型后果、核心插件、零碎性能和平台体验层面全面升级。

在大会前的采访中，火山引擎智能算法负责人、火山方舟负责人吴迪向机器之心透露，根据字节跳动内部的判断，当前阶段已经处在大模型规模化落地的爆发前夕，预计2024年年底或者2025年初，企业对大模型的调用量将出现一个陡峭上升、流量激增的拐点。

吴迪认为，在大模型整体落地走向拐点的过程中，模型后果、零碎承载力以及性价比三个重要痛点将会更加明显，火山方舟未来也将在这三方面持续发力。

模型后果提升，支援日千亿级别tokens调用量

模型的性能和后果是制约许多企业创新场景的首要条件。作为大模型服务平台，火山方舟平台在模型上希望打造一个“精品模型商店”。根据吴迪的说法，跟去年相比，火山方舟平台在模型的上架上，呈现更加严谨和收缩的态势。“只选择最优秀的闭源大模型，以及可以或许持续发展的开源大模型”。

在这次的火山引擎FORCE原动力大会上，字节跳动内部的豆包大模型首次面世，而火山方舟将是豆包大模型的唯一使用入口。

字节跳动向外一次性推出了豆包大模型的全系列模型，包括豆包通用模型pro/lite、角色扮演模型、语音合成模型、语音识别模型、声音复刻模型、Function call模型、文生图模型以及向量化模型。

不同模型面向不同的场景需要。在通用需要上，豆包通用模型pro版可以或许提供更加专业且泛化的本领，窗口尺寸最大可达128K，全系列可精调，具备强理解、生成、逻辑和记忆力，在问答、总结摘要、创作、文本分类、角色扮演等通用场景具备全面通用的本领。而lite版，则面向更追求性价比的客户，更加轻量。

其他细分场景模型支援和加强单一细分场景的本领。比如，角色扮演模型极大地加强了模型在角色扮演方面的本领，可以或许支援老师、朋友、宠物等角色的扮演需要；语音合成模型拥有超自然语音合成本领，做到5s声音克隆，支援听书、陪伴交互等场景；语音识别模型，支援多语种复杂场景语言识别需要，相比小模型识别错误率降低30%，在音乐、科技、教育、医疗等垂直领域识别错误率降低50%以上。

大模型价格进入“厘”时代，豆包大模型定价每千tokens仅0.8厘

经过过去一年的内部打磨，豆包大模型从1.0进化到3.0，在字节跳动内部被用于办公智能助手、电商导购、售后客服、营销创作、数据智能分析、编程助手等等50余个营业场景，日调用量达到1200亿tokens（约1800亿汉字），图片生成量超过3000万张。目前由豆包大模型支援的AI应用助手豆包APP累计下载量超过1亿，桌面+App双端月活用户量2600万，支援创建的智能体总量超过800万。

在采访中，吴迪向机器之心解释称，当前豆包大模型每日千亿tokens级别的量级是目前中国（大模型）市场上非常大的单日吞吐量。这意味着，豆包大模型以及火山方舟的平台已经经过了大流量的生产环境验证，因此即使面对流量非常大，对后果要求非常严苛的客户，被内部营业打磨后的豆包大模型也可以或许支援这类需要。

处理大流量的本领在大模型落地拐点到来后将非常重要。根据吴迪的预判，到了24年底或者到了25年的时候，企业在大语言模型的调用量上面将是今年的数十倍以上。随着企业将大模型纳入自己的核心营业流中，处理大流量的需要也会逐渐拓展。

“大模型的落地不是一件从帽子里拽出来兔子的一个魔法。要把大模型在企业的具体环境里面用好，来解决那些远高于公开评测集的困难问题，是需要有一定的算法协助的。”

在模型后果的提升上，除了模型本身的本领提升和场景聚焦，针对许多客户在工程落地上的困难，火山方舟还形成了专业的算法服务团队，可以在落地全过程，协助营业诊断、训练优化、问题解答，比如提示词工程，协助用模型和客户的数据去做一些精调和训练，保障项目落地。

目前，豆包大模型团队还在重兵投入，持续招揽研究型专家和高潜人才。在字节跳动招聘官网上搜索“豆包大模型”，即可看到该团队有大量职位在招，对大模型的坚决投入可见一斑。

零碎承载力增强，完成分钟级千卡伸缩

在大模型被企业逐渐纳入核心流程的阶段，火山方舟还发现，面对更大体量的营业、更剧烈的流量波动，还需要更强的零碎承载力，否则“有了模型，也跑不起来”。

吴迪总结称，所谓零碎承载力，是充沛算力、模型优化本领以及零碎调度本领的乘积。只有零碎做到更加弹性、稳定、包容，才能接住营业的流量高峰期，并且为潮汐起落的流量匹配最佳的算力投入，实现老本节约。

根据大会的介绍，升级后的火山方舟在零碎承载力方面的增强也体现在这三方面。在算力方面，拥有充沛的公有云GPU资源池，可以或许保障资源潮汐调度，流量高峰营业稳定；在优化方面，创建精调模型接入点后5秒即可使用，路由信息持久化保存，即用即达；在调度方面，可以或许分钟级完成千卡扩缩容，有效支撑突发流量和营业高峰。

通常而言，由于一般公司流量的高峰期相对集中，企业自建机房的情况下，平均每天GPU使用时间通常在8-10小时，在4-6小时的高峰期中，GPU用量可以做到效率最高，但是其他时间效率较低，平均老本会被拉高。

在一个具备更强承载力的零碎下，火山方舟希望做到的是，在无限短的时间里，让算力流动到它该出现的地方，当客户流量爆发时，在毫秒级别的时间里，为这个时段的客户增加GPU算力；当流量下行时，同样快速地抽离算力。在保证客户延迟稳定的情况下，贴合其流量变化，从而最终实现创造最低单位算力老本。

另外，火山引擎在推理层面上做了大量优化，包括算子优化、通信优化、大的集群上主网和储存的优化，可以或许帮助适应异构硬件。

老本更低，大模型价格进入“厘时代”

在众多限制因素中，由于算力贵带来的整体大模型使用老本高昂的问题，不仅限制了更多企业在大模型落地方面的创新，也阻碍了企业将大模型落地场景规模化的进程。

QuestMobile数据显示，截至今年3月，基于大模型的AIGC行业用户量为7380万，尽管同比增长了8倍，也仅占移动互联网用户量的6%。

火山引擎总裁谭待认为，降低老本是推动大模型快进到“价值创造阶段”的一个关键因素。

会上谭待宣布，豆包大模型的定价大幅低于行业价格：豆包通用模型pro-32k版，模型推理输入价格仅为0.0008元/千tokens，而市面上同规格模型的定价一般为0.12元/千，是豆包模型价格的150倍。

另外，豆包通用模型pro-128k版本，推理输入价格为0.005元/千tokens，仅是GPT4-Turbo128K （0.07元/千tokens）定价的7%。

根据火山引擎公布的价格计算，一元钱就能买到豆包主力模型的125万tokens，大约是200万个汉字，相当于三本《三国演义》。

谭待表示，大模型降价，不能只提供低价的轻量化版本，主力模型和最先进的模型也要够便宜，才能真正满足企业的复杂营业场景需要，充分验证大模型的应用价值，从而催化出超越现有产品和组织模式的创新。

丰富的插件生态，嵌入抖音头条底层本领

在本次火山方舟的产品升级中，上述三大升级被认为是火山方舟的三个核心循环层，由这三个循环层共同作用下，可以或许帮助客户解决大模型落地中最重要的三大痛点。

除此之外，本次发布会上，火山方舟还重点提到了，2.0产品对插件生态的进一步丰富，更新后的平台将会上线三个凝结了字节跳动内部强项本领的插件——联网插件、实质插件以及RAG知识库插件。

联网插件可以或许提供头条抖音同款搜索本领，实时连接海量优质互联网数据，不断从新的数据和信息中学习，从而提高其性能和适应性，同时使用文本、图像、语音等多模态交互方式，并通过意图识别本领，提供更准确和全面的回答。

实质插件，可以或许提供头条抖音同源海量实质，支援多模态交互，提供基于意图的垂类实质信息检索，实质时效检索更强，帮助大模型深入理解、检索和生成实质。

RAG知识库插件可以或许支援将企业的私域数据注入到大模型中，实现毫秒级百亿规模的高性能检索，秒级流式知识库索引更新。

根据吴迪的说法，这三大插件是内外部营业需要分析后，需要量最大的三种类型插件，这三大插件也同时利用了字节跳动本身的技术、实质、生态优势。

其中，RAG知识库插件中内嵌的豆包向量模型，来自抖音和头条两大产品的底层向量库引擎，可以或许支援200亿的库容量，面对10万次请求可以或许在3-5毫秒的延迟内完成。“这可能是国内唯一一家可以或许支援实时索引建库的知识库”，吴迪表示。

在抖音内部，这项本领被用来，在几毫秒到几十毫秒间，为用户从数十亿乃至上百亿的候选视频实质中，筛选出适合给他推荐的几十条实质。“从百亿个候选里找到Top100，这个本领是抖音的看家本领，（高速精准筛选）这跟企业知识库的底层需要是完全一致的”。

在企业的外挂知识库场景中，在技术上，通常需要对数十万篇文档进行切片、向量化。然后根据指令从数百万个切片中找到最相关的，这些切片经过排序之后进行大模型做总结和摘要，最后输出。在这一个完整流程中，对零碎本领的要求与视频推荐零碎筛选的要求具备的一致性是——都需要根据输入指令快速而准确地找到对应的实质。吴迪强调，这是许多企业都非常渴望的一种效率。

这三大主要插件之外，企业级AI应用开发平台扣子专业版也对外发布。在扣子可视化灵活编排智能体的本领基础上，扣子专业版提供企业级SLA和多种高级特性，使AI应用更易落地，让企业更专注于通过智能体创新，驱动营业增长。

拐点将至，大模型落地即将迎来流量爆发

大模型向千行百业落地的进程仍刚刚开启，吴迪在采访中坦言，截至目前，大语言模型的调用量级仍然不高，但是到2024年年底或2025年初，将会迎来爆发式的拐点。而拐点到来的必要条件，是许多充满活力的创业公司，或者很多强技术本领、强探索精神的企业已经逐渐找到把大模型用好的感觉了，比如汽车、教育、医疗等等行业的公司。

“现在在我眼中，没有竞争，只有合作和挑战”，他认为，无论是火山引擎还是其他的同赛道公司，在拐点到来前，大家需要一起去面对共同的问题：

如何让大模型渗透到千行百业，而不是停留在一些表面的POC（Proof of Concept，概念验证）testing？

如何共同将大模型技术推向新的高度？

“这是一个未来五年、十年、十五年的长期旅程。当模型后果、老本、零碎这些问题都解决了，剩下的就是千行百业的客户需要针对自己的场景去想，未来的AI时代下，到底会发生什么事了。火山方舟只是可以或许帮助他们更快、更省地推进这个过程，帮助他们解除一些障碍。”

吴迪表示，在拐点到来前，火山方舟会继续顺应实际需要，在模型后果上取得更好的成绩、在零碎上做到更加弹性和稳定、在老本上，进一步帮助企业降低难度，支援企业更加自信地尝试和快速迭代，更加无畏地实验和创新。

{{userData.name}}已认证

大模型价格进入“厘”时代，豆包大模型定价每千tokens仅0.8厘

模型后果提升，支援日千亿级别tokens调用量

零碎承载力增强，完成分钟级千卡伸缩

在大模型被企业逐渐纳入核心流程的阶段，火山方舟还发现，面对更大体量的营业、更剧烈的流量波动，还需要更强的零碎承载力，否则“有了模型，也跑不起来”。

老本更低，大模型价格进入“厘时代”

在众多限制因素中，由于算力贵带来的整体大模型使用老本高昂的问题，不仅限制了更多企业在大模型落地方面的创新，也阻碍了企业将大模型落地场景规模化的进程。

丰富的插件生态，嵌入抖音头条底层本领

在本次火山方舟的产品升级中，上述三大升级被认为是火山方舟的三个核心循环层，由这三个循环层共同作用下，可以或许帮助客户解决大模型落地中最重要的三大痛点。

除此之外，本次发布会上，火山方舟还重点提到了，2.0产品对插件生态的进一步丰富，更新后的平台将会上线三个凝结了字节跳动内部强项本领的插件——联网插件、实质插件以及RAG知识库插件。

拐点将至，大模型落地即将迎来流量爆发

Ilya官宣离职，超等对齐负责人Jan直接辞职，OpenAI还是走散了

OpenAI 发布新旗舰模型GPT-4o！及时交互犹如真人，收费开放

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！