豆包推出实时语音大模型：号称中文对话断崖式领先、情商智商均在线

2025-01-20 04:29

据介绍，豆包实时语音大模型实现了语音理解和生成一体化，实现了端到端语音对话。相比传统级联模式，在语音表现力、控制力、情绪承接方面表现惊艳，并具备低时延、对话中可随时打断等特性。

感谢AI在线从豆包官方获悉，豆包实时语音大模型今日正式推出，并在豆包 App（版本号为 7.2.0 新春版）全量开放。

据介绍，豆包实时语音大模型实现了语音理解和生成一体化，实现了端到端语音对话。相比传统级联模式在语音表现力、控制力、情绪承接方面表现惊艳，并具备低时延、对话中可随时打断等特性，“中文对话断崖式领先，情商智商双双在线”。

同时，豆包 App 更新实时语音通话功能，面向所有用户开放。该功能基于最新豆包实时语音大模型。官方表示，豆包中文场景的对话能力更新后在语音真实感和“喜怒哀乐”的情绪表现上近乎达到“人机难辨”的 AI 交互效果，可以模仿不同声线，并且在“逻辑思考”和“情绪感知”上有明显提升。

据了解，豆包全新实时语音通话功能可以根据场景自动对节奏、儿化音、音量、气音等细节精准把控，还可跟用户“说”悄悄话。其掌握了部分方言与英语对话、多角色模仿，甚至部分歌曲演唱能力。

豆包的全新语音能力基于端到端框架研发，其使用原生方法深度融合语音与文本模态进行统一建模。最终可实现从多模态输入直接到多模态输出的效果，从而达到官方所述“赋予 AI 语音对话‘灵魂’”的效果。

豆包提出全新稀疏模型架构 UltraMem，推理成本较 MoE 最高可降 83%

实验结果表明，训练规模达 2000 万 value 的 UltraMem 模型，在同等计算资源下，可同时实现业界领先的推理速度和模型性能，为构建数十亿规模 value 或 expert 开辟了新路径。

2/12/2025 12:58:01 PM

清源

字节跳动豆包大模型团队开源MoE架构优化技术，训练成本节省40%

字节跳动豆包大模型团队官宣开源一项针对 MoE（混合专家模型）架构的关键优化技术，可将大模型训练效率提升 1.7 倍，成本节省 40%。据悉，该技术叫做 COMET，已实际应用于字节的万卡集群训练，累计帮助节省了数百万 GPU 小时训练算力。

3/10/2025 5:42:41 PM

远洋

字节跳动发布豆包大模型，主力模型比行业价格低99.3%

5月15日，字节跳动豆包大模型在火山引擎原动力大会上正式发布。火山引擎总裁谭待介绍，经过一年时间的迭代和市场验证，豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一，目前日均处理1200亿Tokens文本，生成3000万张图片。 “大的使用量，才能打磨出好模型，也能大幅降低模型推理的单位成本。

5/15/2024 11:15:00 AM

代聪飞

资讯热榜

Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OpenAI发布34页智能体实践指南：从网络搜索到代码编写 MiniMax MCP Server正式上线，开启多模态AI新纪元

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测人形机器人伟达 Transformer 百度深度学习 AI视频苹果模态 xAI 字节跳动驾驶文本搜索大语言模型具身智能 Claude Copilot 神器推荐 LLaMA 算力安全应用视频生成视觉科技亚马逊大型语言模型干货合集特斯拉 2024 AGI 训练

顶部

豆包推出实时语音大模型：号称中文对话断崖式领先、情商智商均在线

相关资讯

豆包提出全新稀疏模型架构 UltraMem，推理成本较 MoE 最高可降 83%

字节跳动豆包大模型团队开源MoE架构优化技术，训练成本节省40%

字节跳动发布豆包大模型，主力模型比行业价格低99.3%