AI在线 AI在线

语音合成也遵循Scaling Law,太乙真人“原声放送”讲解论文 | 港科大等开源

作者:量子位
2025-02-28 09:30
活久见,太乙真人给讲论文了噻! 咳咳,诸位道友且听我一番唠叨。 老道我闭关数日,所得一篇妙诀,便是此Llasa之法。

活久见,太乙真人给讲论文了噻!

语音合成也遵循Scaling Law,太乙真人“原声放送”讲解论文 | 港科大等开源

咳咳,诸位道友且听我一番唠叨。

老道我闭关数日,所得一篇妙诀,便是此Llasa之法。此术上个月一出,海外仙长们无不瞠目结舌,直呼“HOLY SHIT”!

图片

热度最高时,曾在huggingface上的“丹药热度榜”上排第六。

图片

咳咳,书回正传。

如上引发围观的成果由香港科技大学等联合推出,它验证语音合成模型,也可以遵循Scaling Law,即扩展计算资源、语音合成效果可以更好

它核心提出了一个语音合成的简单框架Llasa,该框架采用单层VQ编解码器和单个Transformer架构,和标准LLM保持一致。

研究团队提供了TTS模型(1B、3B、8B)、编解码器的checkpoint以及训练代码。

一气呵成TTS系统

近年来,基于Transformer的大型语言模型(LLM)在自然语言处理领域取得了显著进展,尤其是通过扩展模型规模和训练数据来提升性能。

然而,当前的TTS系统通常需要多阶段模型(例如在 LLM 后使用扩散模型),这使得在训练或推理阶段扩展计算资源变得复杂。

本研究提出了一种单阶段TTS框架Llasa,旨在简化这一过程,同时探索训练时间和推理时间扩展对语音合成的影响。

它基于Llama模型,采用单Transformer架构,结合了一个设计良好的语音分词器(tokenizer),能够将语音波形编码为离散的语音标记,并解码回高质量音频。

该框架的核心在于将语音和文本标记联合建模,通过预测下一个语音标记来生成语音。

关键组件:

  • 语音分词器(Xcodec2):将语音波形编码为离散标记,同时保留语音的语义和声学信息。
  • Transformer模型:基于 Llama 初始化,学习文本和语音标记的联合分布。

验证Scaling Law

训练时间扩展(Scaling Train-time Compute)

研究者通过扩展模型规模和训练数据规模来研究其对语音合成性能的影响。

实验表明,增加模型参数(从1B到8B)和训练数据量(从80k小时到250k小时)可以显著提高语音的自然度、韵律准确性和情感表达能力。

关键发现:

  • 文本理解能力:更大的模型和更多的数据能够更好地理解复杂文本(如诗歌、情感文本)。数据越多,连生僻字,复合词也能辨其真意。
  • 零样本学习能力:扩展训练资源能够显著提高模型对未见说话人的语音克隆能力。

推理时间扩展(Scaling Inference-time Compute)

研究还探索了在推理阶段通过增加计算资源(例如使用语音理解模型作为验证器)来优化生成语音的质量。实验表明,推理时间扩展可以显著提高语音的情感表达、音色一致性和内容准确性。

关键方法:

  • 过程奖励模型(PRM):通过逐步优化生成过程来提高语音质量。
  • 输出奖励模型(ORM):通过评估最终生成的语音来选择最优输出。

实验结果

  • 语音分词器性能:提出的Xcodec2在多个指标上优于现有分词器,特别是在低比特率下的语音重建质量。
  • TTS 性能:Llasa在LibriSpeech、Seed-TTS-Eval和ESD数据集上达到了最先进的性能,尤其是在情感相似性、音色相似性和零样本学习能力方面。
  • 推理时间扩展效果:通过PRM和ORM方法,推理时间扩展显著提高了语音合成的质量,尤其是在复杂任务中。

“开源渡世”

咳咳,太乙真人重新上线:

老道已将丹方(训练代码)、丹药(模型权重)公之于世,广邀三界修士共参:

秘方参照:Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

图片

论文链接:https://arxiv.org/abs/2502.04128

Llasa 训练代码 https://github.com/zhenye234/LLaSA_training

Codec 训练 https://github.com/zhenye234/X-Codec-2.0

Llasa test-time-scaling代码 https://github.com/zhenye234/LLaSA_inference

模型权重: https://huggingface.co/collections/HKUSTAudio/llasa-679b87dbd06ac556cc0e0f44

相关标签:

相关资讯

被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用

DeepSeek带火知识蒸馏,原作者现身爆料:原来一开始就不受待见。 称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》,当年被NeurIPS 2014拒收。 如何评价这篇论文的含金量?
2/7/2025 3:10:00 PM
量子位

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

首次将DeepSeek同款RLVR应用于全模态LLM,含视频的那种! 眼睛一闭一睁,阿里通义实验室薄列峰团队又开卷了,哦是开源,R1-Omni来了。 同样在杭州,这是在搞什么「开源双feng」(狗头保命)?
3/11/2025 1:47:10 PM
量子位

一天拿下3.4k star,这个1.6B开源模型火了,合成对话超逼真

如果不提前告诉你,你可能很难相信这段视频里的语音全部是 AI 生成的:这些声音来自 Dia-1.6B——一个刚刚在 𝕏、GitHub 等平台上走红的开源语音模型。 它不仅能生成说话的声音、对话,同时也能合成真实感非常强的笑声、喷嚏声和吸鼻子声等表达情绪的声音。 由于效果过于逼真,它在 GitHub 上线后不到 24 小时就收获了超过 3.4k star,现在的 star 数更是已经达到了 5.4k。
4/24/2025 9:21:00 AM
机器之心
  • 1