消息称微软亚洲研究院前首席研究经理谭旭加入月之暗面，研发类 GPT-4o 端到端语音模型

作者：清源

2024-10-23 08:07

感谢据“晚点 Auto”昨晚报道，微软亚洲研究院前首席研究经理谭旭于 8 月加入大模型创业公司月之暗面，主要负责研发端到端语音模型。报道称，月之暗面的整个多模态研究早在去年 10 月就已开始。接近该公司人士称，目前正有 10 人左右的团队在研发视频模型，为确保产品更具差异性，对外发布计划仍在推迟。

感谢据“晚点 Auto”昨晚报道，微软亚洲研究院前首席研究经理谭旭于 8 月加入大模型创业公司月之暗面，主要负责研发端到端语音模型。

报道称，月之暗面的整个多模态研究早在去年 10 月就已开始。接近该公司人士称，目前正有 10 人左右的团队在研发视频模型，为确保产品更具差异性，对外发布计划仍在推迟。

资料显示，谭旭在离开微软研究院前担任首席研究经理，方向是生成式 AI、语音 / 音频 / 视频内容生成，论文引用量达上万次，他也曾担任 NeurIPS 等学术会议期刊的审稿人；其多项语言、语音、音乐、视频生成成果已应用在 Azure、Bing 等微软的产品与服务中。

谭旭加入月之暗面后的主要目标之一，可能即是帮助月之暗面打造“类似 GPT-4o”的语音体验。

AI在线注：OpenAI 今年 5 月发布多模态大模型 GPT-4o，基于端到端语音技术打造，具备更低延时、可随时打断等特性。随后，OpenAI 于 9 月 25 日面向 ChatGPT Plus 付费用户推送了高级语音功能。

此前，主流的语音方案是 ASR（自动语音识别）+LLM（大语言模型）+TTS（语音合成）：输入端识别语音、转化成文本；大模型处理内容生成新文本；文本合成为语音、最终输出。

但上述方案的不足在于机器响应时间较长、人类无法随时打断，与人类的自然聊天状态存在差距。相比之下，端到端省去了“语音转文字再转语音”的中间过程，可以压缩机器响应时间，人类也可随时打断机器。同时，端到端还可帮助改善“幻觉”：用户可立即打断输出并给出新的提示词。

相关资讯