名场面来了，李云龙、徐江、王多鱼同台飙戏，背后是小红书的AI

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]近日，来自小红书的技术团队 FireRed，提出了基于大语言模型的 FireRedTTS 语音合成系统，并分享了在短视频配音及聊天式语音对话等应用的一些实践。FireRedTTS 只需要给

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

近日，来自小红书的技术团队 FireRed，提出了基于大语言模型的 FireRedTTS 语音合成系统，并分享了在短视频配音及聊天式语音对话等应用的一些实践。名场面来了，李云龙、徐江、王多鱼同台飙戏，背后是小红书的AI FireRedTTS 只需要给定文本和几秒钟参考音频，无需训练，就可模仿任意音色、任意说话风格，创造独特的音频内容。搞怪风、女友风、emo 小片段…… 百变风格自由定制，只有你想不到，没有 FireRedTTS 做不到。名场面来了，李云龙、徐江、王多鱼同台飙戏，背后是小红书的AI 是的，你没听错。这一段带着京腔，中英文混杂的片段正是由 FireRedTTS 生成。中英夹杂的 strong（死装）感在「city」中透着一丝阴阳怪气。不只语言混杂，FireRedTTS 还有让人直呼「更 city」的配音与对话。名场面来了，李云龙、徐江、王多鱼同台飙戏，背后是小红书的AI 大家听出来了哪几个影视剧角色？运用 FireRedTTS，能够让《黑神话》悟空、《亮剑》李云龙、《狂飙》中的徐江、《西虹市首富》中的王多鱼这些本不可能聚集在一起的人物插科打诨，互相斗嘴，整活不断。名场面来了，李云龙、徐江、王多鱼同台飙戏，背后是小红书的AI

FireRedTTS 不仅能够驾驭多风格、高表现力的音色，在自然对话领域也表现亮眼。视频中基于 FireRedTTS 的陪伴式交流真实自然，刁蛮可爱的女友形象让人情不自禁。名场面来了，李云龙、徐江、王多鱼同台飙戏，背后是小红书的AI

同时，除运用 FireRedTTS 的能力进行多音色、中英混杂的「整花活」之外，FireRedTTS 还能够生成具有小红书博主风格的高级感旁白，少年博主音颇具特色，将听众拉入即将离去的夏天。

FireRedTTS 的效果卓群，能 hold 住不同类型、不同风格、不同使用场景的需求。目前，FireRed 团队已经公布了该工作的技术报告，并且将开源模型权重和推理代码，以供大家体验尝试。

FireRedTTS 是如何一步步突破局限，做到如此惊艳的效果？我们可以打开 FireRedTTS 的论文一探究竟。

名场面来了，李云龙、徐江、王多鱼同台飙戏，背后是小红书的AI

技术报告及 Demo 链接：https://arxiv.org/abs/2409.03283

代码链接：https://github.com/FireRedTeam/FireRedTTS

FireRedTTS 提出了一套完整的基座语音合成框架，由三部分组成：数据处理、基座系统、与下游应用。在基座系统部分，他们提出了一种基于语言模型的语音合成方案，旨在利用语言模型强大的序列生成能力，将文本序列转换成自然的、有表现力的语音序列。

该方案首先训练一个关注语义信息的语音离散编码器，以把语音信号转换成离散的标签序列，和一个说话人全局表征。随后，文本到语音的语言模型被训练以从文本和说话人表征中预测目标语音序列。

为将预测的离散语音序列稳定地还原至高保真音频，FireRedTTS 提出了一种两阶段方法：先用大规模低采样率数据训练高泛化性梅尔谱生成器，再用小规模高保真数据训练超分辨神经声码器以合成高采样率音频。同时，除了基于流匹配的解码器，该系统还提出了一种基于多流语言模型的流式解码器以满足流式解码需求。

名场面来了，李云龙、徐江、王多鱼同台飙戏，背后是小红书的AI

待基座模型训练完毕后，FireRedTTS 便可以通过 In-Context Learning, Supervised Fine-Tuning, Instruct Tuning 等方法，服务下游语音应用。比如：在配音领域，该系统可以零样本克隆用户声音、1 小时数据构造专业级特色声音；在自然对话领域，该系统通过指令优化实现情感和副语言行为可控的拟人化语音生成。

更多研究细节，可参考原论文。

{{userData.name}}已认证

名场面来了，李云龙、徐江、王多鱼同台飙戏，背后是小红书的AI

用60%成本干80%的事，DeepSeek分享沉淀多年的高性能深度学习架构

大模型边推理边纠错，有可能做到吗？这是ICML爆火的演讲

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！