豆包App更新实时语音通话功能,中文对话断崖式领先,人机难辨!

1月20日,豆包APP更新实时语音通话功能,面向所有用户开放。 该功能基于最新豆包实时语音大模型(Doubao Realtime Voice Model)。 更新后,豆包中文场景的对话能力在语音真实感和“喜怒哀乐”的情绪表现上近乎达到“人机难辨”的AI交互效果,可以模仿不同声线,并且在“逻辑思考”和“情绪感知”上有明显提升。

1月20日,豆包APP更新实时语音通话功能,面向所有用户开放。

该功能基于最新豆包实时语音大模型(Doubao Realtime Voice Model)。更新后,豆包中文场景的对话能力在语音真实感和“喜怒哀乐”的情绪表现上近乎达到“人机难辨”的AI交互效果,可以模仿不同声线,并且在“逻辑思考”和“情绪感知”上有明显提升。

图形用户界面

描述已自动生成

记者测试发现,产品表现上,豆包App全新实时语音通话做到了“人机难辨”的真人级交互程度,其语音表现和智力的拟人性方面有了质的提升。相比大多数语音系统还在语气层面进行粗线条变化,豆包全新实时语音通话功能可以根据场景自动对节奏、儿化音、音量、气音等细节精准把控,甚至能跟你“说”悄悄话。

此外,豆包在喜怒哀乐情绪表现方面也颇为亮眼,还掌握了部分方言与英语对话、多角色模仿,甚至部分歌曲演唱能力。在日常使用中,它既可以是英语陪练老师、讲故事高手,也可以是一位即兴唱作者。

过去,传统语音对话任务系统采用ASR+LLM+TTS的级联模式,无法满足真人级语音对话对理解的完整度、生成的自然度、交互的低延时等各维度的要求。而豆包全新语音能力基于创新的端到端框架,使用原生方法深度融合语音与文本模态进行统一建模。最终可实现从多模态输入直接到多模态输出的效果,赋予AI语音对话“灵魂”。

豆包相关负责人介绍,交付体验上,豆包语音对话在确保模型具备强大理解和逻辑能力,能联网回答时效性问题的同时,还具备超低延时和流畅打断能力。

豆包全新实时语音通话功能与同类产品拉开明显差距,中文对话断崖式领先,同时,情商智商双双在线。据外部真实反馈,用户对豆包此次上线的全新语音通话功能整体满意度为4.36/5,对GPT-4o语音对话满意度则为3.18/5,尤其语音语气自然度和情绪饱满度方面,豆包有明显优势。

豆包App更新实时语音通话功能,中文对话断崖式领先,人机难辨!

目前,豆包App全新实时语音通话功能已经全量上线,用户下载并升级豆包APP至7.2.0新春版即可体验。

相关资讯

字节豆包大模型已支持实时语音通话

IT 之家 8 月 9 日消息,字节跳动旗下火山引擎今日宣布推出对话式 AI 实时交互解决方案,搭载火山方舟大模型服务平台。该方案通过火山引擎 RTC 实现语音数据的采集、处理和传输,并深度整合豆包・语音识别模型和豆包・语音合成模型,简化语音到文本和文本到语音的转换过程,提供智能对话和自然语言处理能力,帮助应用实现用户和云端大模型的实时语音通话。▲ 对话式 AI 实时交互服务方案架构字节跳动介绍称,对话式 AI 实时交互解决方案支持开箱即用快速搭建,只需调用标准的 OpenAPI 接口即可配置所需的语音识别(ASR

谷歌介绍 Call Notes AI 功能:本地运行,摘录通话内容

谷歌公司在今天凌晨 1 点举办的 Made By Google 活动中,在发布 Pixel 9 系列手机之外,还介绍了全新的 Call Notes 功能,可摘录、总结通话内容。Call Notes 功能简介Call Notes 功能隶属于 Call Assist 工具集,可以调用 AI 来摘录用户的通话内容,如果用户在没有纸笔的情况下,想要梳理通话内容或者想要记录某个电话号码,该功能可以非常方便地处理重要信息。用户操作也非常简单,打开 Google Phone 应用程序,点击联系人,就能看到最近一次的通话摘要,而且

数仓架构的持续演进与发展 — 云原生、湖仓一体、离线实时一体、SaaS模式

数据仓库概念从1990年提出,经过了四个主要阶段。从最初的数据库演进到数据仓库,到MPP架构,到大数据时代的数据仓库,再到今天的云原生的数据仓库。在不断的演进过程中,数据仓库面临着不同的挑战。