在这个大模型不断创造新成就的时代,我们通常对机器学习模型有一个直观认知:越大越好。但事实果真如此吗?
近日,Google Research 一个团队基于隐聚集模型(LDM)进行了大量尝试研究,得出了一个结论:更大并不总是更好(Bigger is not Always Better),尤其是在预算有限时。
论文标题:Bigger is not Always Better: Scaling Properties of Latent Diffusion Models
论文地址:https://arxiv.org/pdf/2404.01367.pdf
近段时间,隐聚集模型和广义上的聚集模型取得的成就不可谓不耀眼。这些模型在处理了大领域高品质数据之后,可以非常出色地完成多种分歧恣意,包括图像合成与编辑、视频创建、音频生成和 3D 合成。
尽管这些模型可以解决多种多样的问题,但要想在真实世界应用中大领域利用它们,还需要克服一大障碍:采样效劳低。
这一难题的本质在于,为了生成高品质输出,LDM 需要依赖多步采样,而我们知道:采样总本钱 = 采样步骤数 × 每一步的本钱。
具体来说,目前人们首选的方法需要利用 50 步 DDIM 采样。这个过程虽能确保输出品质,但在具备后量化(post-quantization)功能的现代移动设备上却需要相当长的延迟才能完成。因此,为了促进 LDM 的实际应用,就需要优化其效劳。
事实上,这一领域已经出现了一些优化技术,但对于更小型、冗余更少的模型的采样效劳,研究社区还未给予适当关注。在这一领域,一个重大障碍是缺少可用的现代加速器集群,因为从头开始训练高品质文生图 LDM 的时间和资金本钱都很高 —— 往往需要几周时间和数十万美元资金。
该团队通过尝试研究了领域巨细的变化对 LDM 的功能和效劳的影响,其中关注重点是理解 LDM 的领域扩大性质对采样效劳的影响。他们利用有限的预算从头开始训练了 12 个文生图 LDM,参数量从 39M 到 5B 不等。
图 1 给出了一些结果示例。所有模型都是在 TPUv5 上训练的,利用了他们的内部数据源,其中包含大约 6 亿对已过滤的文本 – 图像。
他们的研究发现,LDM 中确实存在一个随模型领域变化的趋向:在同等的采样预算下,较小模型可能有能力超越较大模型。
此外,他们还研究了预训练文生图 LDM 的巨细会如何影响其在分歧上游恣意上的采样效劳,比如真实世界超分辨率、主题驱动的文生图( 即 Dreambooth)。
对于隐聚集模型在文生图和其它多种上游恣意上的领域扩大性质,该团队得到了以下重要发现:
预训练的功能会随训练计算量而扩大。通过将模型的参数量从 39M 扩大到 5B,该团队发现计算资源和 LDM 功能之间存在明显联系。这表明随着模型增大,还有潜力实现进一步提升。
上游功能会随预训练而扩大。该团队的尝试表明:预训练功能与在上游恣意上的成功之间存在很强的关联。较小模型即使利用额外的训练也无法完全赶上较大模型的预训练品质所带来的优势。
较小模型的采样效劳更高。当给定了采样预算时,较小模型的图像品质一开始会优于较大模型,而当放松计算限制时,较大模型会在细节生成上胜过较小模型。
采样器并不会改变领域扩大效劳。无论利用哪种聚集采样器,较小模型的采样效劳总是会更好一点。这对确定性 DDIM、随机性 DDPM 和高阶 DPM-Solver++ 而言都成立。
在步数更少的上游恣意上,较小模型的采样效劳更高。当采样步数少于 20 步时,较小模型在采样效劳上的优势会延伸到上游恣意。
聚集蒸馏不会改变领域扩大趋向。即使利用聚集蒸馏,当采样预算有限时,较小模型的功能依然能与较大蒸馏模型竞争。这说明蒸馏并不会从根本上改变领域扩大趋向。
LDM 的领域扩大
该团队基于广被利用的 866M Stable Diffusion v1.5 标准,开发了一系列强大的隐聚集模型(LDM)。这些模型的去噪 UNet 具有分歧的领域,参数数量从 39M 到 5B 不等。该团队通过逐渐增大残差模块中过滤器的数量,同时维持其它架构元素不变,实现了可预测的受控式领域扩大。表 1 展示了这些分歧巨细模型的架构差异。其中也提供了每个模型相较于基线模型的相对本钱。
图 2 展示了领域扩大过程中的架构差异。这些模型的训练利用了他们的内部数据源,其中有 6 亿对经过过滤的文本 – 图像。所有模型都训练了 50 万步,批量巨细为 2048,学习率为 1e-4。这让所有模型都能到达收益递减的程度。
图 1 表明这些分歧巨细的模型都具有稳定一致的生成能力。
对于文生图恣意,他们设置的采样步数为常用的 50 步,采样器为 DDIM,无分类器指导率为 7.5。可以看到,随着模型领域增大,所得结果的视觉品质明显提升。
文生图功能随训练计算量的扩大规律
尝试中,各种巨细的 LDM 的生成功能相对于训练计算本钱都有类似的趋向,尤其是在训练稳定之后 —— 通常是在 20 万次迭代之后。这些趋向表明分歧巨细的模型的学习能力具备明显的扩大趋向。
具体来看,图 3 展示了参数量从 39M 到 5B 的分歧模型的运行情况,其中的训练计算本钱是表 1 中给出的相对本钱和训练迭代次数的积。评估时,利用了相同的采样步数和采样参数。
在训练计算量适中(即 < 1G,见图 3)的场景中,文生图模型的生成功能可在额外计算资源的帮助下很好地扩大。
预训练能扩大上游恣意的功能
基于在文本 – 图像数据上预训练的模型,该团队又针对真实世界超分辨率和 DreamBooth 这两个上游恣意进行了微调。表 1 给出了这些预训练模型的功能。
图 4 左图给出了在超分辨率(SR)恣意上的生成功能 FID 与训练计算量的对应情况。
可以看出来,相比于训练计算量,超分辨率的功能更依赖模型巨细。尝试结果表明较小模型有一个明显的局限性:不管训练计算量如何,它们都无法达到与较大模型同等的功能。
图 4 右图给出了失真度指标 LPIPS 的情况,可以看到其与生成指标 FID 有一些不一致。虽如此,还是可以从图 5 明显看出:较大模型比较小模型更擅长恢复细粒度的细节。
基于图 4 能得到一个关键见解:相比于较小的超分辨率模型,较大模型即使微调时间更短,也能取得更好的结果。这说明预训练功能(由预训练模型巨细主导)对超分辨率 FID 分数的影响比对微调的持续时间(即用于微调的计算量)的影响大。
此外,图 6 比较了分歧模型上 DreamBooth 微调的视觉结果。可以看到视觉品质和模型巨细之间也有相似的趋向。
扩大采样效劳
分析 CFG 率的影响。文生图生成模型需要超过单一指标的细致评估。采样参数对定制化来说非常重要,而无分类器引导(CFG)率可以直接影响视觉保真度以及与文本 prompt 的语义对齐之间的平衡。
Rombach 等人的论文《High-resolution image synthesis with latent diffusion models》通过尝试表明:分歧的 CFG 率会得到分歧的 CLIP 和 FID 分数。
而这项新研究发现 CFG 率(一个采样参数)会在分歧的模型巨细上得到不一致的结果。因此,利用 FID 或 CLIP 分数以定量方式确定每个模型巨细和采样步骤的最佳 CFG 率是很有趣的。
该团队利用分歧的 CFG 率(即 1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)对分歧领域的模型进行了采样,并以定量和定性方式比较了它们的结果。
图 7 便是两个模型在分歧的 CFG 率下的视觉结果,从中可以看出其对视觉品质的影响。
该团队观察到,相比于 prompt 语义准确度,CFG 率的变化对视觉品质的影响更大,因此为了确定最佳 CFG 率,他们选取的评估指标是 FID 分数。
图 8 给出了分歧的 CFG 率对文生图恣意的 FID 分数的影响。
领域扩大效劳趋向。利用每个模型在分歧采样步骤下的最佳 CFG 率,该团队分析了最优功能表现,以理解分歧 LDM 巨细的采样效劳。
具体来说,图 9 比较了分歧采样本钱下(归一化本钱 × 采样步数)的分歧模型及其最优功能。通过追踪分歧采样本钱下的最优功能点(竖虚线),可以看到一个趋向:在一个采样本钱范围内,较小模型的 FID 分数通常优于较大模型。
图 10 则给出了较小和较大模型结果的定性比较,从中可以看到在相似的采样本钱条件下,较小模型是可以匹敌较大模型的。
分歧巨细的模型利用分歧采样器的采样效劳
为了评估采样效劳趋向在分歧模型领域下的普遍性,该团队评估了分歧巨细的 LDM 利用分歧聚集采样器的功能。
他们利用的采样器有三种:DDIM、随机性 DDPM、高阶 DPM-Solver++。
图 11 给出了尝试结果。
可以看出,当采样步数较少时,DDPM 采样器得到的品质通常低于 DDIM,而 DPM-Solver++ 则在图像品质上胜过 DDIM。
另一个发现也很重要,即三种采样器都有一致的采样效劳趋向:采样本钱一样时,较小模型的功能会优于较大模型。由于 DPM-Solver++ 采样器的设计并不适合用于超过 20 步的采样,因此这也是其采样范围。
结果表明:不管利用什么采样器,LDM 的领域扩大性质始终保持一致。
分歧巨细的模型在分歧上游恣意上的采样效劳
这里关注的重点上游恣意是超分辨率。这里是直接利用超分辨率采样结果,而不利用 CFG。受图 4 启发(在上游恣意上,分歧巨细的 LDM 在采样 50 步时功能差距较大),该团队从两个方面调查了采样效劳:较少采样步数和较多采样步数。
如图 12 左图所示,当采样步数不超过 20 步时,分歧巨细模型的采样效劳趋向在超分辨率恣意上依然成立。但图 12 右图又表明,一旦超过这个范围,较大模型的采样效劳就会超过较小模型。
这一观察结果说明,在文生图和超分辨率等恣意上,分歧巨细模型在采样步数较少时的采样效劳趋向是一致的。
分歧巨细的已蒸馏 LDM 的采样效劳
虽然之前的尝试结果说明较小模型的采样效劳往往更高,但需要指出,较小模型的建模能力也往往更差一些。对于近期那些严重依赖建模能力的聚集蒸馏方法来说,这就成了一大难题。人们可能会预测出一个矛盾的结论:经过蒸馏的大模型的采样速度快于经过蒸馏的小模型。
为了展示经过蒸馏的分歧巨细模型的采样效劳,该团队利用条件一致性蒸馏方法在文生图数据上对之前的分歧巨细模型进行了蒸馏操作,然后比较了这些已蒸馏模型的最佳功能。
详细来说,该团队在采样步数 = 4(这已被证明可以实现最优的采样功能)的设定下测试了所有已蒸馏模型;然后在归一化的采样本钱上比较了每个已蒸馏和未蒸馏模型。
图 13 左图表明,在采样步数 = 4 时,蒸馏可以提升所有模型的生成功能,并且 FID 全面提升。而在右图中,可以看到在同等的采样本钱下,已蒸馏模型的表现优于未蒸馏模型。
但是,在特定的采样本钱下(即采样本钱≈8),较小的未蒸馏 83M 模型依然能取得与较大已蒸馏 866M 模型相近的功能。这一观察进一步支持了该团队提出的分歧巨细 LDM 的采样效劳趋向,其在利用蒸馏时也依然成立。