MAGNeT 有望改变我们体验音乐的方式。
在文本生成音频(或音乐)这个 AIGC 赛道,Meta 最近又有了新研究成果,而且开源了。
前几日,在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中,Meta FAIR 团队、Kyutai 和希伯来大学推出了 MAGNeT,一种在掩码生成序列建模法子,可以直接在多个音频 tokens 流上直接运行。与以往工作最大的不同是,MAGNeT 是由单阶段、非自返回 transformer 生成音频。
论文地址:https://arxiv.org/pdf/2401.04577.pdf
GitHub 地址:https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md
具体来讲,在训练期间,研究者预测从掩码调度器获得的掩码 token 的范围;在模型推理阶段, 则通过几个解码步骤逐渐构建输出序列。为了进一步增强生成音频质量,他们提出一种新颖的重评分法子,利用外部预训练模型对来自 MAGNET 的预测从事重评分和排名,然后用于后续的解码步骤。
此外,研究者还探索了 MAGNET 的混合版本,融合自返回和非自返回模型,以自返回的方式生成前几秒,同时对剩余序列从事并行解码。
从生成结果来看,MAGNET 在文本到音频和文本到音乐任务上取得了非常不错的效果,质量媲美 SOTA 自返回基线模型的同时速度是它们的 7 倍。
大家可以听一下生成的音乐效果。
MAGNeT 法子概览
下图 1 为 MAGNeT 原理图,作为一个非自返回的音频生成掩码语言模型,它以条件语义表示为条件,在从 EnCodec 中获得的几个离散音频 token 流上运行。在建模策略上,研究者从事了包括掩码策略、受限上下文、采样机制和模型重评分等几个方面的核心建模修改。
首先来看掩码策略,研究者评价了 20ms 到 200ms 之间的各种跨度长度,并发现 60ms 跨度长度可以提供最佳的整体性能。他们从调度器中采样了掩码率 γ(i),并相应地计算了从事掩码的平均跨度量。此外从计算效率方面考虑,研究者还利用了非重叠跨度。
接着是受限上下文。研究者利用到了 EnCodec 并相应地限制了码本的上下文。具体来讲,音频编码器由多层卷积网络和最终的 LSTM 块组成。EnCodec 体验野的分析结果表明,卷积网络的体验野约为 160ms,而包含 LSTM 块的有效体验野约为 180ms。研究者利用随时间推移的平移脉冲函数并测量了序列中间编码向量的幅度,进而对模型的体验野从事了实证评价。
下图 3 为过程展示,不过 LSTM 尽管在理论上具有无限记忆,但实际观察来看是有限的。
最后是模态推理,包含采样和无分类器指导退火。采样如下公式(3)所示,利用均匀采样从先前一组掩码跨度中选择跨度。在实践中,研究者利用第 i 次迭代时的模型置信度作为评分函数,来对所有可能的跨度从事排序,并相应地选择最不可能从事掩码的跨度。
对于 token 预测,研究者选择利用无分类器指导来完成。在训练期间,他们有条件和无条件地对模型从事优化;在推理期间,他们从获得自条件和无条件概率的线性组合的一个分布中从事采样。
尝试及结果
在尝试环节,研究者在文本到音乐生成和文本到音频生成任务上对 MAGNeT 从事评价。他们利用了与 Copet et al. (2023) 所用完全相同的音乐生成训练数据,与 Kreuk et al. (2022a) 所用完全相同的音频生成训练数据。
下表 4 展示了用于训练 MAGNeT 以及其他基线法子(包括 MusicGen、MusicLM 和 AudioLDM2)的训练集细节。
下表 1 为 MAGNeT 在文本到音乐生成任务上与其他基线法子的比较结果,利用的评价数据集为 MusicCaps。我们可以看到,MAGNeT 的性能与利用自返回建模法子的 MusicGen 相当,但在生成速度(延缓)和解码两方面比后者快得多。
下图 2a 表明,与自返回基线模型(红色曲线)相比,非自返回模型(蓝色虚线)得益于并行解码在小批大小时表现尤为出色,单个生成样本的延缓低至 600ms,是自返回基线模型的 1/10。可以预见,MAGNeT 在需要低延缓预处理的交互式应用程序中应用潜力很大。此外在批大小达到 64 之前,非自返回模型生成速度都要比基线模型快。
下表 2 展示了跨度长度和受限上下文的消融尝试。研究者报告了利用域内测试集时,MAGNeT 在不同跨度长度、有无时间受限上下文情况下的 FAD(Fréchet Audio Distance)分数。
更多技术细节和尝试结果请参阅原论文。