Sesame发布CSM模型:实时情感定制 AI语音合成迈向新高度

3月13日,Sesame公司推出其最新语音合成模型CSM,引发业界关注。 据官方介绍,CSM采用端到端基于Transformer的多模态学习架构,能够理解上下文信息,生成自然且富有情感的语音,声音效果贴近真人,令人惊艳。 该模型支持实时语音生成,可处理文本和音频输入,用户还能通过调整参数控制语气、语调、节奏及情感等特性,展现高度灵活性。

3月13日,Sesame公司推出其最新语音合成模型CSM,引发业界关注。据官方介绍,CSM采用端到端基于Transformer的多模态学习架构,能够理解上下文信息,生成自然且富有情感的语音,声音效果贴近真人,令人惊艳。

该模型支持实时语音生成,可处理文本和音频输入,用户还能通过调整参数控制语气、语调、节奏及情感等特性,展现高度灵活性。

CSM被认为是AI语音技术的重要突破。其语音自然度极高,甚至“无法分辨是人工合成还是真人”。有用户录制视频展示CSM几近无延迟的表现,称其为“体验过的最强模型”。此前,Sesame曾开源小版本CSM-1B,支持多轮对话生成连贯语音,获得广泛好评。

目前,CSM主要针对英语训练,表现优异,但在多语言支持上仍有限制。目前其不支持中文,但期待未来扩展。

Sesame表示将部分开源研究成果,社区开发者已在GitHub上热议其潜力。CSM不仅适用于对话式AI,还可能推动教育、娱乐等领域语音交互体验的革新。业内人士认为,CSM或将重塑AI语音助手标准,带来更自然的人机对话。

相关资讯

Sesame 发布 CSM 语音模型:跨越“恐怖谷”,逼真程度惊艳全球

Sesame 公司最新推出的语音合成模型“Conversational Speech Model”(简称 CSM)近日在 X 平台上引发热议,被誉为“像真人说话一样的语音模型”。 这款模型以其惊艳的自然度和情感表达能力,不仅让用户“已经无法分辨”其与人类的区别,还宣称成功跨越了语音领域的“恐怖谷效应”。 随着演示视频和用户反馈的传播,CSM 正迅速成为 AI 语音技术的新标杆。

声音比真人还像真人的Maya,背后模型开源了!跨越语音恐怖谷

在 AI 这条赛道上,语音助手也是大家重点发力的领域。 你可能已经和 OpenAI 版《Her》展开过对话,也可能询问过其他语音助手一些问题。 它们都有各自的优缺点,有选择困难症的小伙伴可能犯难了,到底该选择哪一款呢?

Sesame发布超真实的AI语音产品:几乎没有AI味

语音助手逐渐成为我们生活中不可或缺的一部分,而现有的数字语音助手在与用户互动时,往往显得平淡无奇,缺乏情感和人性化的元素。 对此,Sesame 团队正在努力解决这一问题,致力于实现一种全新的 “语音存在” 概念,使得数字助手能够在交流中更真实、被理解和重视。 Sesame 的核心目标是创造一种数字伴侣,不仅仅是处理请求的工具,而是能够进行真实对话的伙伴。