字节豆包大模型已支持实时语音通话

IT 之家 8 月 9 日消息,字节跳动旗下火山引擎今日宣布推出对话式 AI 实时交互解决方案,搭载火山方舟大模型服务平台。该方案通过火山引擎 RTC 实现语音数据的采集、处理和传输,并深度整合豆包・语音识别模型和豆包・语音合成模型,简化语音到文本和文本到语音的转换过程,提供智能对话和自然语言处理能力,帮助应用实现用户和云端大模型的实时语音通话。▲ 对话式 AI 实时交互服务方案架构字节跳动介绍称,对话式 AI 实时交互解决方案支持开箱即用快速搭建,只需调用标准的 OpenAPI 接口即可配置所需的语音识别(ASR

IT 之家 8 月 9 日消息,字节跳动旗下火山引擎今日宣布推出对话式 AI 实时交互解决方案,搭载火山方舟大模型服务平台。

该方案通过火山引擎 RTC 实现语音数据的采集、处理和传输,并深度整合豆包・语音识别模型和豆包・语音合成模型,简化语音到文本和文本到语音的转换过程,提供智能对话和自然语言处理能力,帮助应用实现用户和云端大模型的实时语音通话。

对话式 AI 实时交互服务方案架构

▲ 对话式 AI 实时交互服务方案架构

字节跳动介绍称,对话式 AI 实时交互解决方案支持开箱即用快速搭建,只需调用标准的 OpenAPI 接口即可配置所需的语音识别(ASR)、大语音模型(LLM)、语音合成(TTS)类型和参数。而火山引擎 AIGC RTC-Server 负责边缘用户接入、云端资源调度、文本与语音转换处理以及数据订阅传输等环节。

该技术拥有三大亮点:

支持随时打断,甚至直接插话;

不受限于 AI 服务部署区域,整体响应延时可低至 1s;

客户端提供音频帧级别的语音活动性检测(VAD),可以检测出音频信号中何时有人正在说话,何时是静默状态。

IT 之家附火山引擎对话式 AI 实时交互 Demo 如下:

字节豆包大模型已支持实时语音通话

相关资讯

豆包App更新实时语音通话功能,中文对话断崖式领先,人机难辨!

1月20日,豆包APP更新实时语音通话功能,面向所有用户开放。 该功能基于最新豆包实时语音大模型(Doubao Realtime Voice Model)。 更新后,豆包中文场景的对话能力在语音真实感和“喜怒哀乐”的情绪表现上近乎达到“人机难辨”的AI交互效果,可以模仿不同声线,并且在“逻辑思考”和“情绪感知”上有明显提升。

Hugging Face 推出 FastRTC:实时语音视频应用开发变得轻而易举

AI 初创公司 Hugging Face 宣布推出 FastRTC,这是一个开源的 Python 库,旨在消除开发人员在构建实时音频和视频 AI 应用时面临的重大障碍。 Hugging Face 的 FastRTC 旨在简化 WebRTC 和 Websocket 应用的构建过程。 Freddy Boulton,FastRTC 的创建者之一表示:“在 Python 中,构建实时 WebRTC 和 Websocket 应用非常困难,直到现在才有所改变。

Sesame发布超真实的AI语音产品:几乎没有AI味

语音助手逐渐成为我们生活中不可或缺的一部分,而现有的数字语音助手在与用户互动时,往往显得平淡无奇,缺乏情感和人性化的元素。 对此,Sesame 团队正在努力解决这一问题,致力于实现一种全新的 “语音存在” 概念,使得数字助手能够在交流中更真实、被理解和重视。 Sesame 的核心目标是创造一种数字伴侣,不仅仅是处理请求的工具,而是能够进行真实对话的伙伴。