活久见,太乙真人给讲论文了噻!
咳咳,诸位道友且听我一番唠叨。
老道我闭关数日,所得一篇妙诀,便是此Llasa之法。此术上个月一出,海外仙长们无不瞠目结舌,直呼“HOLY SHIT”!
热度最高时,曾在huggingface上的“丹药热度榜”上排第六。
咳咳,书回正传。
如上引发围观的成果由香港科技大学等联合推出,它验证语音合成模型,也可以遵循Scaling Law,即扩展计算资源、语音合成效果可以更好。
它核心提出了一个语音合成的简单框架Llasa,该框架采用单层VQ编解码器和单个Transformer架构,和标准LLM保持一致。
研究团队提供了TTS模型(1B、3B、8B)、编解码器的checkpoint以及训练代码。
一气呵成TTS系统
近年来,基于Transformer的大型语言模型(LLM)在自然语言处理领域取得了显著进展,尤其是通过扩展模型规模和训练数据来提升性能。
然而,当前的TTS系统通常需要多阶段模型(例如在 LLM 后使用扩散模型),这使得在训练或推理阶段扩展计算资源变得复杂。
本研究提出了一种单阶段TTS框架Llasa,旨在简化这一过程,同时探索训练时间和推理时间扩展对语音合成的影响。
它基于Llama模型,采用单Transformer架构,结合了一个设计良好的语音分词器(tokenizer),能够将语音波形编码为离散的语音标记,并解码回高质量音频。
该框架的核心在于将语音和文本标记联合建模,通过预测下一个语音标记来生成语音。
关键组件:
- 语音分词器(Xcodec2):将语音波形编码为离散标记,同时保留语音的语义和声学信息。
- Transformer模型:基于 Llama 初始化,学习文本和语音标记的联合分布。
验证Scaling Law
训练时间扩展(Scaling Train-time Compute)
研究者通过扩展模型规模和训练数据规模来研究其对语音合成性能的影响。
实验表明,增加模型参数(从1B到8B)和训练数据量(从80k小时到250k小时)可以显著提高语音的自然度、韵律准确性和情感表达能力。
关键发现:
- 文本理解能力:更大的模型和更多的数据能够更好地理解复杂文本(如诗歌、情感文本)。数据越多,连生僻字,复合词也能辨其真意。
- 零样本学习能力:扩展训练资源能够显著提高模型对未见说话人的语音克隆能力。
推理时间扩展(Scaling Inference-time Compute)
研究还探索了在推理阶段通过增加计算资源(例如使用语音理解模型作为验证器)来优化生成语音的质量。实验表明,推理时间扩展可以显著提高语音的情感表达、音色一致性和内容准确性。
关键方法:
- 过程奖励模型(PRM):通过逐步优化生成过程来提高语音质量。
- 输出奖励模型(ORM):通过评估最终生成的语音来选择最优输出。
实验结果
- 语音分词器性能:提出的Xcodec2在多个指标上优于现有分词器,特别是在低比特率下的语音重建质量。
- TTS 性能:Llasa在LibriSpeech、Seed-TTS-Eval和ESD数据集上达到了最先进的性能,尤其是在情感相似性、音色相似性和零样本学习能力方面。
- 推理时间扩展效果:通过PRM和ORM方法,推理时间扩展显著提高了语音合成的质量,尤其是在复杂任务中。
“开源渡世”
咳咳,太乙真人重新上线:
老道已将丹方(训练代码)、丹药(模型权重)公之于世,广邀三界修士共参:
秘方参照:Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis
论文链接:https://arxiv.org/abs/2502.04128
Llasa 训练代码 https://github.com/zhenye234/LLaSA_training
Codec 训练 https://github.com/zhenye234/X-Codec-2.0
Llasa test-time-scaling代码 https://github.com/zhenye234/LLaSA_inference
模型权重: https://huggingface.co/collections/HKUSTAudio/llasa-679b87dbd06ac556cc0e0f44