语音合成也遵循Scaling Law,太乙真人“原声放送”讲解论文 | 港科大等开源

活久见,太乙真人给讲论文了噻! 咳咳,诸位道友且听我一番唠叨。 老道我闭关数日,所得一篇妙诀,便是此Llasa之法。

活久见,太乙真人给讲论文了噻!

语音合成也遵循Scaling Law,太乙真人“原声放送”讲解论文 | 港科大等开源

咳咳,诸位道友且听我一番唠叨。

老道我闭关数日,所得一篇妙诀,便是此Llasa之法。此术上个月一出,海外仙长们无不瞠目结舌,直呼“HOLY SHIT”!

图片

热度最高时,曾在huggingface上的“丹药热度榜”上排第六。

图片

咳咳,书回正传。

如上引发围观的成果由香港科技大学等联合推出,它验证语音合成模型,也可以遵循Scaling Law,即扩展计算资源、语音合成效果可以更好

它核心提出了一个语音合成的简单框架Llasa,该框架采用单层VQ编解码器和单个Transformer架构,和标准LLM保持一致。

研究团队提供了TTS模型(1B、3B、8B)、编解码器的checkpoint以及训练代码。

一气呵成TTS系统

近年来,基于Transformer的大型语言模型(LLM)在自然语言处理领域取得了显著进展,尤其是通过扩展模型规模和训练数据来提升性能。

然而,当前的TTS系统通常需要多阶段模型(例如在 LLM 后使用扩散模型),这使得在训练或推理阶段扩展计算资源变得复杂。

本研究提出了一种单阶段TTS框架Llasa,旨在简化这一过程,同时探索训练时间和推理时间扩展对语音合成的影响。

它基于Llama模型,采用单Transformer架构,结合了一个设计良好的语音分词器(tokenizer),能够将语音波形编码为离散的语音标记,并解码回高质量音频。

该框架的核心在于将语音和文本标记联合建模,通过预测下一个语音标记来生成语音。

关键组件:

  • 语音分词器(Xcodec2):将语音波形编码为离散标记,同时保留语音的语义和声学信息。
  • Transformer模型:基于 Llama 初始化,学习文本和语音标记的联合分布。

验证Scaling Law

训练时间扩展(Scaling Train-time Compute)

研究者通过扩展模型规模和训练数据规模来研究其对语音合成性能的影响。

实验表明,增加模型参数(从1B到8B)和训练数据量(从80k小时到250k小时)可以显著提高语音的自然度、韵律准确性和情感表达能力。

关键发现:

  • 文本理解能力:更大的模型和更多的数据能够更好地理解复杂文本(如诗歌、情感文本)。数据越多,连生僻字,复合词也能辨其真意。
  • 零样本学习能力:扩展训练资源能够显著提高模型对未见说话人的语音克隆能力。

推理时间扩展(Scaling Inference-time Compute)

研究还探索了在推理阶段通过增加计算资源(例如使用语音理解模型作为验证器)来优化生成语音的质量。实验表明,推理时间扩展可以显著提高语音的情感表达、音色一致性和内容准确性。

关键方法:

  • 过程奖励模型(PRM):通过逐步优化生成过程来提高语音质量。
  • 输出奖励模型(ORM):通过评估最终生成的语音来选择最优输出。

实验结果

  • 语音分词器性能:提出的Xcodec2在多个指标上优于现有分词器,特别是在低比特率下的语音重建质量。
  • TTS 性能:Llasa在LibriSpeech、Seed-TTS-Eval和ESD数据集上达到了最先进的性能,尤其是在情感相似性、音色相似性和零样本学习能力方面。
  • 推理时间扩展效果:通过PRM和ORM方法,推理时间扩展显著提高了语音合成的质量,尤其是在复杂任务中。

“开源渡世”

咳咳,太乙真人重新上线:

老道已将丹方(训练代码)、丹药(模型权重)公之于世,广邀三界修士共参:

秘方参照:Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

图片

论文链接:https://arxiv.org/abs/2502.04128

Llasa 训练代码 https://github.com/zhenye234/LLaSA_training

Codec 训练 https://github.com/zhenye234/X-Codec-2.0

Llasa test-time-scaling代码 https://github.com/zhenye234/LLaSA_inference

模型权重: https://huggingface.co/collections/HKUSTAudio/llasa-679b87dbd06ac556cc0e0f44

相关资讯

被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用

DeepSeek带火知识蒸馏,原作者现身爆料:原来一开始就不受待见。 称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》,当年被NeurIPS 2014拒收。 如何评价这篇论文的含金量?

使用魔搭开发自己的语音AI:从入门到精通

语音AI是最早从实验室走向应用的AI技术,其发展史就是不断创新、解锁应用的历史,从1995年 Dragon Dictate的桌面孤立词语音识别,到2011年苹果的手机语音助手SIRI,再到当下百花齐放的各种智能语音应用。由于技术的快速进步,以及各大云计算厂商以API形式提供的语音AI能力,目前开发者已能便捷使用语音AI去搭建应用。但API也存在局限性,不少开发者希望获得更多、更底层的把控力,希望对API背后AI模型有更深入的了解;不只是开发应用,还可以开发模型;不只是调用API接口,还可以通过对模型的训练或微调(f

准确率可达 70%,科学家利用 AI 解读狗的叫声

研究人员正在尝试使用 AI 来解读狗的叫声是在玩耍还是在生气。与此同时,研究人员还尝试使用 AI 识别狗的年龄、性别和品种。密歇根大学的研究人员与位于普埃布拉的墨西哥国家天体物理、光学和电子研究所(INAOE)合作开展了这一研究,发现最初用于训练人类语音的 AI 模型可以作为训练动物交流模型的起点。图源 Pixabay密歇根大学人工智能实验室负责人 Rada Mihalcea 表示,人工智能在理解语音的微妙之处方面有了显著进步,可以区分音调、音调和口音的细微差别,可凭借这些研究基础来理解狗吠。开发这种分析动物发声