语音助手逐渐成为我们生活中不可或缺的一部分,而现有的数字语音助手在与用户互动时,往往显得平淡无奇,缺乏情感和人性化的元素。对此,Sesame 团队正在努力解决这一问题,致力于实现一种全新的 “语音存在” 概念,使得数字助手能够在交流中更真实、被理解和重视。
Sesame 的核心目标是创造一种数字伴侣,不仅仅是处理请求的工具,而是能够进行真实对话的伙伴。这些数字伴侣希望通过与用户的互动,逐步建立信任感和自信心,进而让用户在日常生活中体验到更为丰富和深刻的交流。为此,Sesame 团队专注于几个关键的组成部分,包括情感智能、对话动态、上下文意识和一致的人格特征。
情感智能是让语音助手能够理解和回应用户情感状态的能力。它不仅仅停留在语音命令的理解上,而是要能够感知语音中的情感变化,从而做出更适当的反馈。其次,对话动态则强调语音助手在交流过程中应具备的自然节奏,包括适时的停顿、恰当的语气强调和打断等,使得对话更加流畅和自然。
另外,上下文意识也是至关重要的。它要求语音助手根据对话的背景和历史,灵活调整语调和风格,以匹配当前的情境。这种能力能够使得数字助手在不同的场合下都能显得恰如其分,进而提高用户的满意度。最后,一致的人格特征则意味着语音助手在各类对话中都应保持相对一致的个性和风格,以增强用户的信任感。
然而,要实现 “语音存在” 的目标并非易事。Sesame 团队在个性、记忆、表现力和适当性等多个方面的努力取得了逐步进展。近期,团队展示了一些在对话语音生成方面的实验成果,特别是在友好性和表现力上进行了优化,充分展现了其方法的潜力。
在技术层面,Sesame 团队针对传统文本到语音(TTS)模型的不足,提出了一种称为 “对话语音模型”(CSM)的新方法。这种方法利用转换器架构,旨在实现更为自然和连贯的语音生成。CSM 不仅处理文本和音频的多模态学习,还能够根据对话的历史来调整输出,从而解决传统模型在上下文理解上的短板。
为了验证模型的效果,Sesame 团队使用了大量公开的音频数据进行训练,并通过转录、分段等方式准备训练样本。他们训练了不同规模的模型,并在客观和主观评估指标上取得了良好成绩,尽管目前模型在自然度和语音适应性方面已接近人类水平,但在具体的对话情境中仍有待提升。
从官方给出的样本,其生成的作品几乎听不出一点AI的成分,超级有真实感。
Sesame 团队计划开源其研究成果,以便社区能够参与实验和改进。这一举措不仅有助于加速对话 AI 的发展,同时也希望通过扩展模型规模和语言支持,涵盖更多的应用场景。此外,团队还计划探讨如何利用预训练语言模型,为多模态模型的构建奠定基础。
项目demo:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
划重点:
🌟 Sesame 团队致力于实现 “语音存在”,让数字助手不仅能执行命令,还能进行真实对话。
🔧 通过 “对话语音模型”(CSM),团队在上下文理解和语音生成方面取得了新突破。
🌐 团队计划开源研究成果,并扩展语言支持,以推动对话 AI 的进一步发展。