Kyutai - AI在线

8人小团队单挑OpenAI，半年仿出GPT-4o，还开源了

最近，一个对标 GPT-4o 的开源实时语音多模态模型火了。这个开源模型来自法国一个仅有 8 人的非营利性 AI 研究机构 ——Kyutai，模型名为 Moshi，具备听、说、看的多模态功能。图灵奖得主 Yann LeCun 转发说道：「Moshi 能听懂带有法国口音的英语。」据悉，该团队开发这个模型仅用了 6 个月。的确，在研究团队演示的视频中，我们发现 Moshi 可以非常流利地回答人们提出的问题，进行日常对话交流，甚至可以猜出提问者的意图。例如，当提问者说「下个月打算去攀登珠穆朗玛峰，我在想......」，提