Sesame 发布 CSM 语音模型:跨越“恐怖谷”,逼真程度惊艳全球

Sesame 公司最新推出的语音合成模型“Conversational Speech Model”(简称 CSM)近日在 X 平台上引发热议,被誉为“像真人说话一样的语音模型”。 这款模型以其惊艳的自然度和情感表达能力,不仅让用户“已经无法分辨”其与人类的区别,还宣称成功跨越了语音领域的“恐怖谷效应”。 随着演示视频和用户反馈的传播,CSM 正迅速成为 AI 语音技术的新标杆。

Sesame 公司最新推出的语音合成模型“Conversational Speech Model”(简称 CSM)近日在 X 平台上引发热议,被誉为“像真人说话一样的语音模型”。这款模型以其惊艳的自然度和情感表达能力,不仅让用户“已经无法分辨”其与人类的区别,还宣称成功跨越了语音领域的“恐怖谷效应”。随着演示视频和用户反馈的传播,CSM 正迅速成为 AI 语音技术的新标杆。

image.png

跨越“恐怖谷”:CSM 的技术突破

“恐怖谷效应”是指当人工合成的语音或形象接近真实人类但仍存细微差异时,会引发人类的不适感。Sesame 通过其 CSM 模型正面应对这一难题。X 用户 @imxiaohu 在3月1日发帖称:“兄弟们,这个全新的语音模型很厉害,已经无法分辨了!”他指出,CSM 在个性、记忆、表达能力及语境恰当性上表现出色,几乎消除了传统语音助手的机械感。

Sesame 团队在官方研究文章中表示,CSM 的目标是实现“语音存在感”——让语音交互不仅真实可信,还能被理解和重视。这一突破得益于其核心组件:情感智能(解读并回应情感)、上下文记忆(基于对话历史调整输出)以及高保真的语音生成技术。演示中,CSM 在超长对话中展现了语气自然、情感丰富的一面,用户甚至无法在不知情的情况下分辨其为 AI。

image.png

用户体验逼真

X 平台上的用户反馈进一步印证了 CSM 的惊艳表现。@imxiaohu 在帖子中分享了一段超长对话演示,涵盖多种场景和情景,并感叹:“语气、情感一些表达上非常非常的接近人类,哈哈哈哈。”他提到,在无提示的情况下,这款模型的输出已让人难以区分真假。另一位用户 @leeoxiang 在3月1日表示,他用 CSM 练习了半小时英语口语,几乎感觉不到延迟,并称其“口语化做得特别好,会有一些口气在里面”,主动对话能力也令人印象深刻。

社区的热情不仅限于称赞。许多用户指出,CSM 的对话流畅度和情感表达已超越现有主流模型,如 OpenAI 的 ChatGPT 语音模式。@op7418

 在2月28日推荐研究者关注 Sesame 的技术文章,并强调其独特的语音真实度评价体系,显示出该模型在技术上的严谨性。

仍有提升空间:Sesame 的未来计划

尽管 CSM 的表现令人震撼,Sesame 官方坦言这并非终点。@imxiaohu援引官方说法称,“这还不是最完美的,还有很大提升的空间!”目前,CSM 支持英语等多语言,但如 @leeoxiang 所指出,尚不支持中文。此外,部分用户在测试中发现,模型在特定语境(如外语切换或音乐演唱)下的表现仍有改进余地。

Sesame 已承诺将部分研究成果开源,其 GitHub 页面(SesameAILabs/csm)显示 CSM 将采用 Apache2.0许可。这一举措引发了开发者社区的期待,许多人希望通过对其架构的深入研究,进一步推动语音 AI 的发展。

行业影响与展望

CSM 的亮相不仅是对“恐怖谷效应”的技术回应,也为 AI 语音交互树立了新标准。与 Grok、Claude 等模型相比,CSM 在实时性、低延迟和情感表达上的优势尤为突出。X 用户 @AbleGPT

 在3月2日表示:“如果你在研究 AI 语音,强烈推荐看看这个文章。”这反映了 CSM 对技术圈的启发意义。

随着 Sesame 计划扩大语言支持并优化模型,CSM 有望在教育、娱乐和虚拟伴侣等领域大放异彩。从 X 上的热烈反响来看,这款“兄弟们都觉得厉害”的语音模型,正以逼真的对话能力重新定义人与 AI 的互动方式。未来,它是否能彻底消除“恐怖谷”,成为真正的“数字伙伴”?答案或许就在 Sesame 的下一次迭代中。

试玩地址:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo

相关资讯

Sesame发布超真实的AI语音产品:几乎没有AI味

语音助手逐渐成为我们生活中不可或缺的一部分,而现有的数字语音助手在与用户互动时,往往显得平淡无奇,缺乏情感和人性化的元素。 对此,Sesame 团队正在努力解决这一问题,致力于实现一种全新的 “语音存在” 概念,使得数字助手能够在交流中更真实、被理解和重视。 Sesame 的核心目标是创造一种数字伴侣,不仅仅是处理请求的工具,而是能够进行真实对话的伙伴。

播客平台 Podcastle 推出AI文本转语音模型:提供 450 种语音

在快速发展的播客领域,Podcastle 平台近日宣布推出其全新的 AI 文本转语音模型 Asyncflow v1.0。 这个新模型不仅为用户提供了超过450种不同的 AI 语音,还向开发者开放了 API 接口,以便于他们将这一文本转语音功能直接集成到自己的应用程序中。 Podcastle 的创始人 Arto Yeritsyan 表示,公司一直希望能开发一个文本转语音模型,但由于过去高昂的训练成本和数据需求,这一愿望一直未能实现。

使用魔搭开发自己的语音AI:从入门到精通

语音AI是最早从实验室走向应用的AI技术,其发展史就是不断创新、解锁应用的历史,从1995年 Dragon Dictate的桌面孤立词语音识别,到2011年苹果的手机语音助手SIRI,再到当下百花齐放的各种智能语音应用。由于技术的快速进步,以及各大云计算厂商以API形式提供的语音AI能力,目前开发者已能便捷使用语音AI去搭建应用。但API也存在局限性,不少开发者希望获得更多、更底层的把控力,希望对API背后AI模型有更深入的了解;不只是开发应用,还可以开发模型;不只是调用API接口,还可以通过对模型的训练或微调(f