爆火Sora背后的手艺,一文综述集中模型的最新发展方向

为了使机器具有人类的想象力,深度生成模型取得了重大进展。这些模型能创造逼真的样本,尤其是集中模型,在多个范畴表现出色。集中模型解决了其他模型的限制,如 VAEs 的后验散布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。因此,集中模型在计算机视觉、自然语言处理等方面备受关注。集中模型由两个流程组成:前向流程和反向流程。前向流程把数据转化为简单的先验散布,而反向流程则逆转这一变化,用训练好的神经网络模拟微分方程来生成数据。与其他模型相比,集中模型提供了更稳定的训练目标和更好的生成效果。

为了使机器具有人类的想象力,深度生成模型取得了重大进展。这些模型能创造逼真的样本,尤其是集中模型,在多个范畴表现出色。集中模型解决了其他模型的限制,如 VAEs 的后验散布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。因此,集中模型在计算机视觉、自然语言处理等方面备受关注。

集中模型由两个流程组成:前向流程和反向流程。前向流程把数据转化为简单的先验散布,而反向流程则逆转这一变化,用训练好的神经网络模拟微分方程来生成数据。与其他模型相比,集中模型提供了更稳定的训练目标和更好的生成效果。

爆火Sora背后的手艺,一文综述集中模型的最新发展方向

不过,集中模型的采样流程伴随反复推理求值。这一流程面临着不稳定性、高维计算需求和复杂的似然性优化等挑衅。研究者为此提出了多种方案,如改进 ODE/SDE 解算器和采取模型蒸馏策略来加速采样,以及新的前向流程来普及稳定性和降低维度。

近期,港中文联合西湖大学、MIT、之江实验室,在 IEEE TKDE 上发表的题为《A Survey on Generative Diffusion Models》的综述论文从四个方面讨论了集中模型的最新进展:采样加速、流程计划、似然优化和散布桥接。该综述还深入探讨了集中模型在不同应用范畴的成功,如图象分解、视频生成、3D 建模、医学分析和文本生成等。通过这些应用案例,展示了集中模型在真实世界中的实用性和潜力。

爆火Sora背后的手艺,一文综述集中模型的最新发展方向

论文地址:https://arxiv.org/pdf/2209.02646.pdf

项目地址:https://github.com/chq1155/A-Survey-on-Generative-Diffusion-Model?tab=readme-ov-file

算法改进

采样加速

知识蒸馏

在集中模型范畴,普及采样速度的关键手艺之一是知识蒸馏。这个流程涉及从一个大型、复杂的模型中提取出知识,并将其转移到一个更小、更高效的模型中。例如,通过应用知识蒸馏,我们可以简化模型的采样轨迹,使得在每个步骤中都以更高的效率逼近目标散布。Salimans 等人采用了一种基于常微分方程(ODE)的格式来优化这些轨迹,而其他研究者则发展了直接从噪声样本估计干净数据的手艺,从而在光阴点 T 上加速了这一流程。

训练方式

改进训练方式也是提升采样效率的一种格式。一些研究专注于进修新的集中方案,其中数据不再是简单地加入高斯噪声,而是通过更复杂的格式映射到潜伏空间。这些格式中,有些关注于优化逆向解码流程,比如调整编码的深度,而其他则探索了新的噪声规模计划,使噪声的加入不再是静态的,而是变成了一个可以在训练流程中进修的参数。

免训练采样

除了训练新的模型以普及效率,还有一些手艺致力于加速已经预训练好的集中模型的采样流程。ODE 加速是其中的一种手艺,它应用 ODE 来描述集中流程,从而使得采样可以更快地进行。例如,DDIM 是一种应用 ODE 进行采样的格式,后续的研究则引入了更高效的 ODE 求解器,如 PNDM 和 EDM,以进一步提升采样速度。

联合其他生成模型

此外,还有研究者提出了解析格式来加速采样,这些格式试图找到一个无需迭代就能从噪声数据中直接恢复干净数据的解析解。这些格式包括 Analytic-DPM 及其改进版本 Analytic-DPM++,它们提供了一种快速且精确的采样策略。

集中流程计划

潜伏空间

潜伏空间集中模型如 LSGM 和 INDM 联合了 VAE 或归一化流模型,通过共用的加权去噪分数匹配损失来优化编解码器和集中模型,使得 ELBO 或对数似然的优化旨在构建易于进修和生成样本的潜伏空间。例如,Stable Diffusion 首先应用 VAE 进修潜伏空间,然后训练集中模型以接受文本输入。DVDP 则在图象扰动流程中动态调整像素空间的正交组件。

创新的前向流程

为了普及生成模型的效率和强度,研究人员探索了新的前向流程计划。泊松场生成模型将数据视为电荷,沿电场线将简单散布引向数据散布,与传统集中模型相比,它提供了更强大的反向采样。PFGM++ 进一步将这一概念纳入高维度变量。Dockhorn 等人的临界阻尼朗之万集中模型应用哈密顿动力学中的速度变量简化了前提速度散布的分数函数进修。

非欧几里得空间

在离散空间数据(如文本、分类数据)的集中模型中,D3PM 定义了离散空间的前向流程。基于这种格式,已有研究扩展到语言文本生成、图分割和无损压缩等。在多模态挑衅中,矢量量化数据转换为代码,显示出卓越的结果。在黎曼流形中的流形数据,如机器人手艺和蛋白质建模,要求集中采样纳入黎曼流形。图神经网络和集中理论的联合,如 EDP-GNN 和 GraphGDP,处理图数据来捕捉排列不变性。

似然优化

尽管集中模型优化了 ELBO,但似然优化仍是一个挑衅,特别是对于连续光阴集中模型。ScoreFlow 和变分集中模型(VDM)等格式建立了 MLE 训练与 DSM 目标的联系,Girsanov 定理在此中起到了关键作用。改进的去噪集中概率模型(DDPM)提出了一种联合变分下界和 DSM 的混合进修目标,以及一种简单的重新参数化手艺。

散布连接

集中模型在将高斯散布转换为复杂散布时表现出色,但在连接任意散布时存在挑衅。α- 混合格式通过迭代混合和解混来创建确定性桥梁。矫正流加入额外步骤来矫正桥梁路径。另一种格式是通过 ODE 实现两个散布之间的连接,而薛定谔桥或高斯散布作为中间连接点的格式也在研究之中。

爆火Sora背后的手艺,一文综述集中模型的最新发展方向

应用范畴

图片生成

集中模型在图象生成中非常成功,不仅能生成普通图象,还能完成复杂任务,比如把文本转换成图象。模型如 Imagen、Stable Diffusion 和 DALL-E 2 在这方面展示了高超手艺。它们应用集中模型结构,联合跨注意力层的手艺,把文本信息整合进生成图象。除了生成新图象,这些模型还能编辑图象而不需再训练。编辑是通过调整跨注意力层(键、值、注意力矩阵)实现的。比如,通过调整特征图改变图象元素或引入新文本嵌入加入新概念。有研究确保模型生成时能关注文本的所有关键词,以确保图象准确反映描述。集中模型还能处理基于图象的前提输入,比如源图象、深度图或人体骨架等,通过编码并整合这些特征来引导图象生成。一些研究把源图象编码特征加入模型开始层,实现图象到图象编辑,也适用于深度图、边缘检测或骨架作为前提的场景。

3D 生成

在 3D 生成方面,通过集中模型的格式主要有两种。第一种是直接在 3D 数据上训练模型,这些模型已被有效应用在多种 3D 表示形式,如 NeRF、点云或体素等。例如,研究者们已经展示了如何直接生成 3D 对象的点云。为了普及采样的效率,一些研究引入了混合点 – 体素表示,或者将图象分解作为点云生成的额外前提。另一方面,有研究应用集中模型来处理 3D 对象的 NeRF 表示,并通过训练视角前提集中模型来分解新颖视图,优化 NeRF 表示。第二种格式强调应用 2D 集中模型的先验知识来生成 3D 内容。比如,Dreamfusion 项目应用得分蒸馏采样目标,从预训练的文本到图象模型中提取出 NeRF,并通过梯度下降优化流程来实现低损失的渲染图象。这一流程也被进一步扩展,以加快生成速度。

视频生成

视频集中模型是对 2D 图象集中模型的扩展,它们通过添加光阴维度来生成视频序列。这种格式的基本思想是在现有的 2D 结构中添加光阴层,以此来模拟视频帧之间的连续性和依赖关系。相关的工作展示了如何应用视频集中模型来生成动态内容,例如 Make-A-Video、AnimatedDiff 等模型。更具体地,RaMViD 模型应用 3D 卷积神经网络扩展图象集中模型到视频,并开发了一系列视频特定的前提手艺。

医学分析

集中模型帮助解决了医学分析中获取高质量数据集的挑衅,尤其在医学成像方面表现出色。这些模型凭借其强大的图象捕捉能力,在提升图象的分辨率、进行分类和噪声处理方面取得了成功。例如,Score-MRI 和 Diff-MIC 应用先进的手艺加速 MRI 图象的重建和实现更精确的分类。MCG 在 CT 图象超分辨率中采用流形校正,普及了重建速度和准确性。在生成稀有图象方面,通过特定手艺,模型能在不同类型的图象间进行转换。例如,FNDM 和 DiffuseMorph 分别用于脑部异常检测和 MR 图象配准。一些新格式通过少量高质量样本分解训练数据集,如一个应用 31,740 个样本的模型分解了一个包含 100,000 个实例的数据集,取得了非常低的 FID 得分。

文本生成

文本生成手艺是连接人类和 AI 的重要桥梁,能制造流畅自然的语言。自回归语言模型虽然生成连贯性强的文本但速度慢,而集中模型能够快速生成文本但连贯性相对较弱。两种主流的格式是离散生成和潜伏生成。离散生成依赖于先进手艺和预训练模型;例如,D3PM 和 Argmax 视词汇为分类向量,而 DiffusionBERT 将集中模型与语言模型联合提升文本生成。潜伏生成则在令牌的潜伏空间中生成文本,例如,LM-Diffusion 和 GENIE 等模型在各种任务中表现出色,显示了集中模型在文本生成中的潜力。集中模型预计将在自然语言处理中提升性能,与大型语言模型联合,并支持跨模态生成。

光阴序列生成

光阴序列数据的建模是在金融、气候科学、医疗等范畴中进行预测和分析的关键手艺。集中模型由于其能够生成高质量的数据样本,已经被用于光阴序列数据的生成。在这个范畴,集中模型通常被计划为考虑光阴序列数据的时序依赖性和周期性。例如,CSDI(Conditional Sequence Diffusion Interpolation)是一种模型,它应用了双向卷积神经网络结构来生成或插补光阴序列数据点。它在医疗数据生成和环境数据生成方面表现出色。其他模型如 DiffSTG 和 TimeGrad 通过联合时空卷积网络,能够更好地捕捉光阴序列的动态特性,并生成更加真实的光阴序列样本。这些模型通过自我前提指导的方式,逐渐从高斯噪声中恢复出有意义的光阴序列数据。

音频生成

音频生成涉及到从语音分解到音乐生成等多个应用场景。由于音频数据通常包含复杂的光阴结构和丰富的频谱信息,集中模型在此范畴同样表现出潜能。例如,WaveGrad 和 DiffSinger 是两种集中模型,它们应用前提生成流程来产生高质量的音频波形。WaveGrad 应用 Mel 频谱作为前提输入,而 DiffSinger 则在这个基础上添加了额外的音乐信息,如音高和节奏,从而提供更精细的风格控制。文本到语音(TTS)的应用中,Guided-TTS 和 Diff-TTS 将文本编码器和声学分类器的概念联合起来,生成既符合文本内容又遵循特定声音风格的语音。Guide-TTS2 进一步展现了如何在没有明确分类器的情况下生成语音,通过模型自身进修到的特征引导声音生成。

份子计划

在药物计划、材料科学和化学生物学等范畴,份子计划是发现和分解新化合物的重要环节。集中模型在这里作为一种强大的工具,能够高效探索化学空间,生成具有特定性质的份子。在无前提的份子生成中,集中模型不依赖于任何先验知识,自发地生成份子结构。而在跨模态生成中,模型可能会联合特定的功能前提,例如药效或目标蛋白的联合倾向,来生成具有所需性质的份子。基于序列的格式可能会考虑蛋白质序列来引导份子的生成,而基于结构的格式则可能应用蛋白质的三维结构信息。这样的结构信息可以在份子对接或者抗体计划中被用作先验知识,从而普及生成份子的质量。

图生成

应用集中模型生成图,旨在更好地理解和模拟现实世界的网络结构和传播流程。这种格式帮助研究人员挖掘复杂系统中的模式和相互作用,预测可能的结果。应用包括社交网络、生物网络分析以及图数据集的创建。传统格式依赖于生成邻接矩阵或节点特征,但这些格式可扩展性差,实用性有限。因此,现代图生成手艺更倾向于根据特定前提生成图。例如,PCFI 模型应用图的一部分特征和最短路径预测来引导生成流程;EDGE 和 DiffFormer 分别用节点度和能量约束来优化生成;D4Explainer 则通过联合散布和反事实损失来探索图的不同可能性。这些格式普及了图生成的精确度和实用性。

爆火Sora背后的手艺,一文综述集中模型的最新发展方向

结论与展望

数据限制下的挑衅

除了推理速度低外,集中模型在从低质量数据中辨识模式和规律时也常常遇到困难,导致它们无法泛化到新的场景或数据集。此外,处理大规模数据集时也会出现计算上的挑衅,如延长的训练光阴、过度的内存应用,或者无法收敛到期望的状态,从而限制了模型的规模和复杂性。更重要的是,有偏差或不均匀的数据采样会限制模型生成适应不同范畴或人群的输出的能力。

可控的基于散布的生成

普及模型理解和生成特定散布内样本的能力对于在有限数据情况下实现更好的泛化至关重要。通过专注于识别数据中的模式和相关性,模型可以生成与训练数据高度匹配并满足特定要求的样本。这需要有效的数据采样、应用手艺以及优化模型参数和结构。最终,这种增强的理解能力允许更加控制和精确的生成,从而改善泛化性能。

应用大型语言模型的高级多模态生成

集中模型的未来发展方向涉及通过整合大型语言模型(LLMs)来推进多模态生成。这种整合使模型能够生成包含文本、图象和其他模态组合的输出。通过纳入 LLMs,模型对不同模态间相互作用的理解得到增强,生成的输出更加多样化和真实。此外,LLMs 显著普及了基于提示的生成效率,通过有效应用文本与其他模态之间的联系。另外,LLMs 作为催化剂,普及了集中模型的生成能力,扩大了它可以生成模态的范畴范围。

与机器进修范畴的整合

将集中模型与传统的机器进修理论联合,为普及各种任务的性能提供了新的机会。半监督进修在解决集中模型的固有挑衅,例如泛化问题,以及在数据有限的情况下实现有效的前提生成方面特别有价值。通过应用未标记数据,它加强了集中模型的泛化能力,并在特定前提下生成样本时实现了理想的性能。

此外,强化进修通过应用精调算法,在模型的采样流程中提供针对性的指导,起着至关重要的作用。这种指导确保了专注的探索并促进了受控生成。另外,通过整合额外的反馈,丰富了强化进修,从而改善了模型的可控前提生成能力。

算法改进格式(附录)

爆火Sora背后的手艺,一文综述集中模型的最新发展方向

范畴应用格式(附录)

爆火Sora背后的手艺,一文综述集中模型的最新发展方向

给TA打赏
共{{data.count}}人
人已打赏
应用

模型混合、混合大师、更小的LLM,几篇论文看懂2024年LLM发展方向

2024-2-22 10:49:00

应用

开源大模型王座易主!googleGemma杀入场,笔记本可跑,可商用

2024-2-22 11:02:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索