Sesame 发布 CSM 语音模型：跨越“恐怖谷”，逼真程度惊艳全球

2025-03-03 11:37

Sesame 公司最新推出的语音合成模型“Conversational Speech Model”（简称 CSM）近日在 X 平台上引发热议，被誉为“像真人说话一样的语音模型”。这款模型以其惊艳的自然度和情感表达能力，不仅让用户“已经无法分辨”其与人类的区别，还宣称成功跨越了语音领域的“恐怖谷效应”。随着演示视频和用户反馈的传播，CSM 正迅速成为 AI 语音技术的新标杆。

跨越“恐怖谷”:CSM 的技术突破

“恐怖谷效应”是指当人工合成的语音或形象接近真实人类但仍存细微差异时，会引发人类的不适感。Sesame 通过其 CSM 模型正面应对这一难题。X 用户 @imxiaohu 在3月1日发帖称:“兄弟们，这个全新的语音模型很厉害，已经无法分辨了!”他指出，CSM 在个性、记忆、表达能力及语境恰当性上表现出色，几乎消除了传统语音助手的机械感。

Sesame 团队在官方研究文章中表示，CSM 的目标是实现“语音存在感”——让语音交互不仅真实可信，还能被理解和重视。这一突破得益于其核心组件:情感智能（解读并回应情感）、上下文记忆(基于对话历史调整输出)以及高保真的语音生成技术。演示中，CSM 在超长对话中展现了语气自然、情感丰富的一面，用户甚至无法在不知情的情况下分辨其为 AI。

用户体验逼真

X 平台上的用户反馈进一步印证了 CSM 的惊艳表现。@imxiaohu 在帖子中分享了一段超长对话演示，涵盖多种场景和情景，并感叹:“语气、情感一些表达上非常非常的接近人类，哈哈哈哈。”他提到，在无提示的情况下，这款模型的输出已让人难以区分真假。另一位用户 @leeoxiang 在3月1日表示，他用 CSM 练习了半小时英语口语，几乎感觉不到延迟，并称其“口语化做得特别好，会有一些口气在里面”，主动对话能力也令人印象深刻。

社区的热情不仅限于称赞。许多用户指出，CSM 的对话流畅度和情感表达已超越现有主流模型，如 OpenAI 的 ChatGPT 语音模式。@op7418

在2月28日推荐研究者关注 Sesame 的技术文章，并强调其独特的语音真实度评价体系，显示出该模型在技术上的严谨性。

仍有提升空间:Sesame 的未来计划

尽管 CSM 的表现令人震撼，Sesame 官方坦言这并非终点。@imxiaohu援引官方说法称，“这还不是最完美的，还有很大提升的空间!”目前，CSM 支持英语等多语言，但如 @leeoxiang 所指出，尚不支持中文。此外，部分用户在测试中发现，模型在特定语境（如外语切换或音乐演唱）下的表现仍有改进余地。

Sesame 已承诺将部分研究成果开源，其 GitHub 页面（SesameAILabs/csm）显示 CSM 将采用 Apache2.0许可。这一举措引发了开发者社区的期待，许多人希望通过对其架构的深入研究，进一步推动语音 AI 的发展。

行业影响与展望

CSM 的亮相不仅是对“恐怖谷效应”的技术回应，也为 AI 语音交互树立了新标准。与 Grok、Claude 等模型相比，CSM 在实时性、低延迟和情感表达上的优势尤为突出。X 用户 @AbleGPT

在3月2日表示:“如果你在研究 AI 语音，强烈推荐看看这个文章。”这反映了 CSM 对技术圈的启发意义。

随着 Sesame 计划扩大语言支持并优化模型，CSM 有望在教育、娱乐和虚拟伴侣等领域大放异彩。从 X 上的热烈反响来看，这款“兄弟们都觉得厉害”的语音模型，正以逼真的对话能力重新定义人与 AI 的互动方式。未来，它是否能彻底消除“恐怖谷”，成为真正的“数字伙伴”?答案或许就在 Sesame 的下一次迭代中。

试玩地址：https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo

Sesame发布CSM模型：实时情感定制 AI语音合成迈向新高度

3月13日，Sesame公司推出其最新语音合成模型CSM，引发业界关注。据官方介绍，CSM采用端到端基于Transformer的多模态学习架构，能够理解上下文信息，生成自然且富有情感的语音，声音效果贴近真人，令人惊艳。该模型支持实时语音生成，可处理文本和音频输入，用户还能通过调整参数控制语气、语调、节奏及情感等特性，展现高度灵活性。

3/14/2025 10:53:00 AM

AI在线

声音比真人还像真人的Maya，背后模型开源了！跨越语音恐怖谷

在 AI 这条赛道上，语音助手也是大家重点发力的领域。你可能已经和 OpenAI 版《Her》展开过对话，也可能询问过其他语音助手一些问题。它们都有各自的优缺点，有选择困难症的小伙伴可能犯难了，到底该选择哪一款呢？

3/16/2025 12:01:00 AM

机器之心

Sesame发布超真实的AI语音产品：几乎没有AI味

语音助手逐渐成为我们生活中不可或缺的一部分，而现有的数字语音助手在与用户互动时，往往显得平淡无奇，缺乏情感和人性化的元素。对此，Sesame 团队正在努力解决这一问题，致力于实现一种全新的 “语音存在” 概念，使得数字助手能够在交流中更真实、被理解和重视。 Sesame 的核心目标是创造一种数字伴侣，不仅仅是处理请求的工具，而是能够进行真实对话的伙伴。

3/3/2025 9:37:00 AM

AI在线

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

Sesame 发布 CSM 语音模型：跨越“恐怖谷”，逼真程度惊艳全球

相关资讯

Sesame发布CSM模型：实时情感定制 AI语音合成迈向新高度

声音比真人还像真人的Maya，背后模型开源了！跨越语音恐怖谷

Sesame发布超真实的AI语音产品：几乎没有AI味