豆包推出实时语音大模型:号称中文对话断崖式领先、情商智商均在线

据介绍,豆包实时语音大模型实现了语音理解和生成一体化,实现了端到端语音对话。相比传统级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性。
感谢AI在线从豆包官方获悉,豆包实时语音大模型今日正式推出,并在豆包 App(版本号为 7.2.0 新春版)全量开放。

据介绍,豆包实时语音大模型实现了语音理解和生成一体化,实现了端到端语音对话。相比传统级联模式在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性,“中文对话断崖式领先,情商智商双双在线”。

豆包推出实时语音大模型:号称中文对话断崖式领先、情商智商均在线

同时,豆包 App 更新实时语音通话功能,面向所有用户开放。该功能基于最新豆包实时语音大模型。官方表示,豆包中文场景的对话能力更新后在语音真实感和“喜怒哀乐”的情绪表现上近乎达到“人机难辨”的 AI 交互效果,可以模仿不同声线,并且在“逻辑思考”和“情绪感知”上有明显提升。

据了解,豆包全新实时语音通话功能可以根据场景自动对节奏、儿化音、音量、气音等细节精准把控,还可跟用户“说”悄悄话。其掌握了部分方言与英语对话、多角色模仿,甚至部分歌曲演唱能力。

豆包的全新语音能力基于端到端框架研发,其使用原生方法深度融合语音与文本模态进行统一建模。最终可实现从多模态输入直接到多模态输出的效果,从而达到官方所述“赋予 AI 语音对话‘灵魂’”的效果。

相关资讯

豆包App更新实时语音通话功能,中文对话断崖式领先,人机难辨!

1月20日,豆包APP更新实时语音通话功能,面向所有用户开放。 该功能基于最新豆包实时语音大模型(Doubao Realtime Voice Model)。 更新后,豆包中文场景的对话能力在语音真实感和“喜怒哀乐”的情绪表现上近乎达到“人机难辨”的AI交互效果,可以模仿不同声线,并且在“逻辑思考”和“情绪感知”上有明显提升。

字节跳动发布豆包大模型,主力模型比行业价格低99.3%

5月15日,字节跳动豆包大模型在火山引擎原动力大会上正式发布。 火山引擎总裁谭待介绍,经过一年时间的迭代和市场验证,豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一,目前日均处理1200亿Tokens文本,生成3000万张图片。 “大的使用量,才能打磨出好模型,也能大幅降低模型推理的单位成本。

沙利文发布权威报告:商汤科技GenAI技术栈市场综合能力位居国内第一

创新实力强、应用落地广,GenAI(生成式AI)技术栈领域,商汤科技位居国内榜首! 近日,权威研究机构弗若斯特沙利文(Frost & Sullivan, 简称“沙利文”)联合头豹研究院发布《2024年中国GenAI技术栈市场报告》,商汤科技在11个GenAI厂商中超越阿里云、百度智能云和华为云,增长指数和创新指数均排名国内第一,在全球排名中仅次于亚马逊云科技。 报告认为,商汤积极投入技术创新,致力于为用户提供行业领先的自研模型与高性能国产化的推理引擎,同时建立了包含机器与人工审核、安全评测与内容安全策略迭代升级等在内的完整性安全管理方案,是GenAI技术栈领域的领导者。