Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下

年初,谷歌推出了音乐生成大模型 MusicLM,效果非常不错。有人称这比大火的 ChatGPT 还重要,几乎解决了音乐生成问题。近日,Meta 也推出了自己的文本音乐生成模型 MusicGen,并且非商业用途免费运用。

文本到音乐是指在给定文本描绘的情况下生成音乐作品的任务,例如「90 年代吉他即兴摇滚歌曲」。作为一项具有挑战性的任务,生成音乐要对长序列从事建模。与语音不同,音乐需要运用全频谱,这意味着以更高的速率对信号从事采样,即音乐录音的标准采样率为 44.1 kHz 或 48 kHz,而语音的采样率为 16 kHz。

此外,音乐包含不同乐器的和声和旋律,这使音乐有着复杂的结构。但由于人类听众对不和谐十分敏感,因此对生成音乐的旋律不会有太大容错率。当然,以多种步骤控制生成过程的能力对音乐创作者来说是必不可少的,如键、乐器、旋律、流派等。

最近自监督音频默示学习、序列建模和音频合成方面的进展,为开发此类模型提供了前提。为了使音频建模更加容易,最近的研究提出将音频信号默示为「默示同一信号」的分离 token 流。这使得高质量的音频生成和有效的音频建模成为可能。然而这需要联合建模几个并行的依赖流。

Kharitonov 等人 [2022]、Kreuk 等人 [2022] 提出采用延迟步骤并行建模语音 token 的多流,即在不同流之间引入偏移量。Agostinelli 等人 [2023] 提出运用不同粒度的多个分离标记序列来默示音乐片段,并运用自返回模型的层次结构对其从事建模。同时,Donahue 等人 [2023] 采用了类似的步骤,但针对的是演唱到伴奏生成的任务。最近,Wang 等人 [2023] 提出分两个阶段解决这个问题:限制对第一个 token 流建模。然后应用 post-network 以非自返回的方式联合建模其余的流。

本文中,Meta AI 的研究者提出了 MUSICGEN,这是一种简单、可控的音乐生成模型,能在给定文本描绘的情况下生成高质量的音乐。

Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下

论文地址:https://arxiv.org/pdf/2306.05284.pdf

试玩地址:https://huggingface.co/spaces/facebook/MusicGen

研究者提出一个对多个并行声学 token 流从事建模的通用框架,作为以前研究的概括 (见下图 1)。为提高生成样本的可控性,本文还引入了无监督旋律前提,使模型能够根据给定和声和旋律生成结构匹配的音乐。本文对 MUSICGEN 从事了广泛的评价,所提出的步骤在很大程度上优于评价基线:MUSICGEN 的主观评分为 84.8 (满分 100 分),而最佳基线为 80.5。此外,本文还提供一项消融研究,阐明了每一个组件对整体模型性能的重要性。

最后,人工评价表明,MUSICGEN 产生了高质量的样本,这些样本在符合文本描绘,在旋律上也更好地与给定的和声结构对齐。

Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下

本文的主要贡献有如下几点:

提出了一个简单高效的模型:可以在 32khz 产生高质量的音乐。MUSICGEN 可以通过有效的码本交织策略,用单阶段语言模型生成一致的音乐;

提出一个单一的模型,从事文本和旋律前提生成,其生成的音频与提供的旋律是一致的,并符合文本前提信息;

对所提出步骤的关键设计选择从事了广泛的客观及人工评价。

步骤概览

MUSICGEN 包含一个基于自返回 transformer 的解码器,并以文本或旋律默示为前提。该(语言)模型基于 EnCodec 音频 tokenizer 的量化单元,它从低帧分离默示中提供高保真重建效果。此外部署残差向量量化(RVQ)的压缩模型会产生多个并行流。在此设置下,每一个流都由来自不同学得码本的分离 token 组成。

以往的工作提出了一些建模策略来解决这一问题。研究者提出了一种新颖的建模框架,它可以泛化到各种码本交织形式。该框架还有几种变体。基于形式,他们可以充分利用量化音频 token 的内部结构。最后 MUSICGEN 支持基于文本或旋律的前提生成。

音频 tokenization 

研究者运用了 EnCodec,它是一种卷积自编码器,具有运用 RVQ 量化的潜在空间和对抗重建损失。给定一个参考音频随机变量 X ∈ R^d・f_s,其中 d 默示音频持续时间,f_s 默示采样率。EnCodec 将该变量编码为帧率为 f_r ≪ f_s 的连续张量,然后该默示被量化为 Q ∈ {1, . . . , N}^K×d・f_r,其中 K 默示 RVQ 中运用的码本数量,N 默示码本大小。

码本交织形式

精确扁平化自返回分解。自返回模型需要一个分离随机序列 U ∈ {1, . . . , N}^S 和序列长度 S。按照惯例,研究者将采用 U_0 = 0,这是一个确定性的特殊 token,默示序列的开始。然后他们可以对分布从事建模。

不精确的自返回分解。另一种可能是考虑自返回分解,其中一些码本需要从事并行预测。比如定义另一个序列,V_0 = 0,并且 t∈ {1, . . . , N}, k ∈ {1, . . . , K}, V_t,k = Q_t,k。当删除码本索引 k 时(如 V_t),这代表了时间为 t 时所有码本的串联。

任意码本交织形式。为了试验此类分解,并准确测量运用不精确分解的影响,研究者引入了码本交织形式。首先考虑Ω = {(t, k) : {1, . . . , d・f_r}, k ∈ {1, . . . , K}},它是所有时间步和码本索引对的集合。码本形式是序列 P=(P_0, P_1, P_2, . . . , P_S),其中 P_0 = ∅,,并且 0 < i ≤ S, P_i ⊂ Ω,这样 P 是Ω的分区。研究者通过并行地预测 P_t 中的所有位置来建模 Q,并以 P_0, P_1, . . . , P_T 中的所有位置为前提。同时考虑到实际效率,他们只选择了「每一个码本在任何 P_s 中最多出现一次」的形式。

模型前提化

文本前提化。给定与输入音频 X 匹配的文本描绘,研究者计算前提张量 C ∈ R^T_C ×D,其中 D 是自返回模型中运用的内部维数。

旋律前提化。虽然文本是当今前提生成模型的主要步骤,但更自然的音乐步骤是以来自另一个音轨甚至口哨或哼唱的旋律结构为前提。这种步骤还允许对模型输出从事迭代优化。为了支持这一点,研究者尝试通过联合调节输入的色谱图和文本描绘来控制旋律结构。再最初的试验中,他们观察到以原始色谱图为前提通常会重建原始样本,导致过拟合。为此,研究者在每一个时间步中选择主要的时频 bin 来引入信息瓶颈。

模型架构

码本投影和位置嵌入。给定一个码本形式,在每一个形式步 P_s 中只有一些码本的存在。研究者从 Q 中检索出对应 P_s 中索引的值。每一个码本在 P_s 中最多出现一次或根本不存在。

Transformer 解码器。输入被馈入到具有 L 层和 D 维的 transformer 中,每一层都由一个因果自注意力块组成。然后运用一个跨注意力块,该块由前提化信号 C 提供。当运用旋律调节时,研究者将前提化张量 C 作为 transformer 输入的前缀。

Logits 预测。在形式步 P_s 中,transformer 解码器的输出被转换为 Q 值的 Logits 预测。每一个码本在 P_s+1 中最多出现一次。如果码本存在,则从 D 通道到 N 应用特定于码本的线性层来获得 Logits 预测。

实验结果

音频 tokenization 模型。研究对 32 kHz 单声道音频运用非因果五层 EnCodec 模型,其步幅为 640,帧率为 50 Hz,初始隐藏大小为 64,在模型的五层中每层都增加一倍。

变压器模型,研究训练了不同大小的自返回 Transformer 模型:300M, 1.5B, 3.3B 参数。

训练数据集。研究运用 2 万小时的授权音乐来训练 MUSICGEN。详细来说,研究运用了一个包含 10K 个高质量曲目的内部数据集,以及分别包含 25K 和 365K 只有乐器曲目的 ShutterStock 和 Pond5 音乐数据集。

评价数据集。研究在 MusicCaps 基准上对所提出的步骤从事了评价,并与之前的工作从事了比较。MusicCaps 是由专家音乐家准备的 5.5K 样本 (10 秒长) 和跨流派平衡的 1K 子集组成的。

下表 1 给出了所提步骤与 Mousai、Riffusion、MusicLM 和 Noise2Music 的比较。结果表明,在音频质量和对提供的文本描绘的一致性方面,MUSICGEN 的表现优于人类听众的评价基线。Noise2Music 在 MusicCaps 上的 FAD 方面表现最好,其次是经过文本前提训练的 MUSICGEN。有趣的是,添加旋律前提会降低客观指标,但是并不会显著影响人类评分,且仍然优于评价的基线。

Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下

研究者在给出的评价集上运用客观和主观度量,在文本和旋律默示的共同前提下评价 MUSICGEN,结果见下表 2。结果表明,用色谱图前提化训练的 MUSICGEN 成功地生成了遵循给定旋律的音乐,从而可以更好地控制生成的输出。MUSICGEN 对于在推理时运用 OVL 和 REL 丢掉色度具有鲁棒性。

Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下

码本交织形式的影响。研究者运用 2.2 节中的框架评价了各种码本形式,K = 4,由音频 tokenization 模型给出。本文在下表 3 中报告了客观和主观评价。虽然扁平化改善了生成效果,但它的计算成本很高。运用简单的延迟步骤,只需花费一小部分成本就能得到类似的性能。

Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下

模型大小的影响。下表 4 报告了不同模型大小的结果,即 300M、1.5B 和 3.3B 参数模型。正如预期的那样,扩大模型大小可以得到更好的分数,但前提是需要更长的训练和推理时间。主观评价方面,在 1.5B 时整体质量是最优的,但更大的模型可以更好地理解文本提示。

Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下

给TA打赏
共{{data.count}}人
人已打赏
AI

工夫、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了

2023-6-12 14:52:00

AI

google大模型云效劳上线,代码生成、PaLM for Chat首次亮相

2023-6-12 15:01:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索