声音比真人还像真人的Maya,背后模型开源了!跨越语音恐怖谷

在 AI 这条赛道上,语音助手也是大家重点发力的领域。 你可能已经和 OpenAI 版《Her》展开过对话,也可能询问过其他语音助手一些问题。 它们都有各自的优缺点,有选择困难症的小伙伴可能犯难了,到底该选择哪一款呢?

在 AI 这条赛道上,语音助手也是大家重点发力的领域。

你可能已经和 OpenAI 版《Her》展开过对话,也可能询问过其他语音助手一些问题。它们都有各自的优缺点,有选择困难症的小伙伴可能犯难了,到底该选择哪一款呢?

其实,在和语音助手交谈的时候,除了对话流畅,声音的微妙表达如情绪、停顿、安慰都是不能少的。

但当今 AI 语音助手虽然接近人类但仍有机械感或情感表达不自然的时候,用户可能会感到怪异,甚至比完全机械化的语音更难以接受。这种现象被称为语音恐怖谷效应,是当前语音合成技术需要克服的挑战之一。

AI 公司 Sesame 发布的逼真语音助手 Maya,通过情感智能、上下文记忆和高保真语音生成技术,成功跨越了语音恐怖谷,使语音交互更加自然、情感丰富。

image.png

                             Sesame 官方博客中正式写道他们的研究跨越恐怖谷效应,来源:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice

在下面演示的这段对话中,你就像和朋友聊天一样,聊上十几分钟都没问题,Maya 的语气很随和,它会打断别人的话,你也可以随时打断它的话,甚至你还能听到对话时的呼吸声。声音比真人还像真人的Maya,背后模型开源了!跨越语音恐怖谷

                                    来源:https://x.com/tanvitabs/status/1895842394928791888

现在,Sesame 开源了驱动 Maya 的基础模型 CSM-1B(Conversational Speech Model)。

image.png

  • 项目地址:https://github.com/SesameAILabs/csm

  • huggingface 地址:https://huggingface.co/spaces/sesame/csm-1b

该模型拥有 10 亿参数规模,并且采用了 Apache 2.0 许可证,这意味着它可以在几乎没有限制的情况下用于商业用途。CSM-1B 可以从文本和音频输入中生成「RVQ 音频编码」。

可能大家都很好奇什么是 RVQ(Residual Vector Quantization),简单来讲就是一种将音频编码为离散 token 的技术。这种技术已经被应用于多种 AI 音频研究中,包括各种大厂都在采用,如 Google 的 SoundStream(一款用于收听播客、有声读物和广播节目的应用程序)和 Meta 的 Encodec。

image.png

CSM-1B 使用了 Meta 研发的 Llama 系列模型作为其骨干架构,并搭配了一个音频解码器组件。

image.png

Sesame 表示,Maya 的精细微调版本正是基于 CSM。Sesame 还提到:在 Hugging Face 和 GitHub 上开源的模型是一个基础生成模型,能够产生多种声音,但尚未针对任何特定声音进行精细微调…… 该模型因训练数据中的数据污染,对非英语语言有一定的能力,但表现可能不佳。

目前尚不清楚 Sesame 用于训练 CSM-1B 的数据来源,该公司并未透露相关信息。

值得注意的是,该模型实际上没有任何真正的安全防护措施。Sesame 采用的是一种诚信系统,仅仅是敦促开发者和用户不要在未经他人同意的情况下使用该模型模仿别人的声音,不要创建误导性内容如假新闻,或从事有害或恶意活动。

《消费者报告》最近发出警告,指出市场上众多流行的 AI 语音克隆工具缺乏有效的防范措施来预防欺诈和滥用行为。

公司介绍

Sesame 由 Brendan Iribe(Oculus 联合创始人兼前 CEO)、Ankit Kumar(前 Ubiquity6 首席技术官兼联合创始人)、Ryan Brown(前 Meta Reality Labs 研究工程总监)等创意人才领导。

Sesame 已从 Andreessen Horowitz、Spark Capital 和 Matrix Partners 等投资机构获得融资,但具体金额未对外公布。

Sesame 专注于开发自然对话的语音伙伴及相关设备。公司采用跨学科方法,结合硬件、软件和机器学习技术,确保语音界面既实用又令人愉悦。其研究团队在语音生成、个性化建模和多模态技术领域积极创新,并依托大规模 GPU 集群和专业训练评估体系支持研发工作。

该公司除了开发语音助手技术外,还在研发可全天佩戴的 AI 眼镜原型,这些眼镜将搭载公司自主开发的定制模型。

参考链接:

https://techcrunch.com/2025/03/13/sesame-the-startup-behind-the-viral-virtual-assistant-maya-releases-its-base-ai-model/

https://www.zdnet.com/article/talking-with-sesames-ai-voice-companion-is-amazing-and-creepy-see-for-yourself/

相关资讯

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。

降低门槛,全平台应用,昇腾还会手把手地教你如何用AI

机器之心报道作者:泽南如何才能做到 AI 应用一次开发,全场景部署?昇腾给出了答案。如今的大多数 AI 应用程序都需要跑在多种类型的处理器上,覆盖数十个版本的操作系统,运行在从端侧到云计算集群的各种设备上。这样复杂的环境,对软件的适应性和模型的可裁剪、可伸缩性提出了极高要求。AI 开源框架也在顺应这股潮流,昇腾发布的 CANN、MindSpore、MindX 等工具,可以让开发者实现「统一端边云,全端自动部署」,开启了机器学习开发的新时代,一直被人们寄予厚望。昇腾的 AI 全栈软件平台。其中,基础架构作为连接硬件与

院士、委员、专家共议“双智建设”:场景驱动、标准协同、以人为本

智能网联汽车和智慧城市基础设施,已经成为日常生活中随处可见的元素。2021年,住建部和工信部将16个城市列为双智试点城市,探索智慧城市基础设施与智能网联汽车协同发展。试点城市提供了哪些思路?双智的未来该走向何处?这些问题成为当前双智行业关注的重点。近日,由腾讯智慧交通、腾讯研究院联合举办了“双智建设专家研讨会“,共同探讨双智建设的新思路、新机遇。中国工程院院士郭仁忠、全国政协委员、交通运输部科学研究院副院长兼总工程师王先进、中国电动汽车百人会秘书长兼首席专家张永伟、中国信息通信研究院副院长王志勤、中国城市规划设计研