ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了

来自南洋理工大学和商汤科技的研究者联合提出了一种全新的文本驱动作为生成框架——ReMoDiffuse。

人体作为生成任务旨在生成逼真的人体作为序列,以满足娱乐、虚拟现实、机器人技术等领域的需求。传统的生成办法包括 3D 角色创建、关键帧动画和作为捕捉等步骤,其存在诸多限制,如耗时较长,需要专业技术知识,涉及昂贵的系统和软件,不同软硬件系统之间可能存在兼容性问题等。随着深度学习的发展,人们开始尝试使用生成模型来实现人体作为序列的自动生成,例如通过输出文本描述,要求模型生成与文本要求相匹配的作为序列。随着集中模型被引入这个领域,生成作为与给定文本的一致性不断提高。

然而,生成作为的自然程度离使用需求仍有很大差距。为了进一步提升人体作为生成算法的能力,本文在 MotionDiffuse [1] 的基础上提出了 ReMoDiffuse 算法(图 1),通过利用检索策略,找到高相关性的参考样本,提供细粒度的参考特色,从而生成更高质量的作为序列。

ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了

论文链接:https://arxiv.org/pdf/2304.01116.pdf

GitHub:https://github.com/mingyuan-zhang/ReMoDiffuse

项目主页:https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

通过巧妙地将集中模型和创新的检索策略融合,ReMoDiffuse 为文本指导的人体作为生成注入了新的生命力。经过精心构思的模型结构,ReMoDiffuse 不仅能够创造出丰富多样、真实度高的作为序列,还能有效地满足各种长度和多粒度的作为需求。实验证明,ReMoDiffuse 在作为生成领域的多个关键指标上表现出色,显著地超越了现有算法。

ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了图 1. ReMoDiffuse 概览

办法介绍

ReMoDiffuse 主要由两个阶段组成:检索和集中。在检索阶段,ReMoDiffuse 使用混合检索技术,基于用户输出文本以及预期作为序列长度,从外部的多模态数据库中检索出信息丰富的样本,为作为生成提供强有力的指导。在集中阶段,ReMoDiffuse 利用检索阶段检索到的信息,通过高效的模型结构,生成与用户输出语义一致的运动序列。

为了确保高效的检索,ReMoDiffuse 为检索阶段精心设计了以下数据流(图 2):

共有三种数据参与检索历程,分别是用户输出文本、预期作为序列长度,以及一个外部的、包含多个 < 文本,作为 > 对的多模态数据库。在检索最相关的样本时,ReMoDiffuse 利用公式ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了较量争论出每个数据库中的样本与用户输出的类似度。这里的第一项是利用预训练的 CLIP [2] 模型的文本编码器对用户输出文本和数据库实体的文本较量争论余弦类似度,第二项较量争论预期作为序列长度和数据库实体的作为序列长度之间的相对差异作为运动学类似度。较量争论类似度分数后,ReMoDiffuse 选择类似度排名前 k 的样本作为检索到的样本,并提取出文本特色ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了,和作为特色ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了。这两者和从用户输出的文本中提取的特色ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了 一同作为输出给集中阶段的信号,指导作为生成。

ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了图 2:ReMoDiffuse 的检索阶段

集中历程(图3.c)由正向历程和逆向历程两个部分组成。在正向历程中,ReMoDiffuse 逐步将高斯噪声添加到原始作为数据中,并最终将其转化为随机噪声。逆向历程专注于除去噪声并生成逼真的作为样本。从一个随机高斯噪声开始,ReMoDiffuse 在逆向历程中的每一步都使用语义调制模块(SMT)(图3.a)来估测真实分布,并根据条件信号来逐步去除噪声。这里 SMT 中的 SMA 模块将会将所有的条件信息融入到生成的序列特色中,是本文提出的核心模块。

ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了图 3:ReMoDiffuse 的集中阶段

对于 SMA 层(图 3.b),我们使用了高效的注意力机制(Efficient Attention)[3] 来加速注意力模块的较量争论,并创造了一个更强调全部信息的全部特色图。该特色图为作为序列提供了更综合的语义线索,从而提升了模型的性能。SMA 层的核心目标是通过聚合条件信息来优化作为序列ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了的生成。在这个框架下:

1.Q 向量具体地代表了我们期望基于条件信息生成的预期作为序列ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了

2.K 向量作为一种索引机制综合考虑了多个要素,包括当前作为序列特色ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了、用户输出的语义特色ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了,以及从检索样本中获取的特色ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了。其中,ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了表示从检索样本中获取的作为序列特色,ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了表示从检索样本中获取的文本描述特色。这种综合性的构建方式保证了 K 向量在索引历程中的有效性。

3.V 向量提供了作为生成所需的实际特色。类似 K 向量,这里 V 向量也综合考虑了检索样本、用户输出以及当前作为序列。考虑到检索样本的文本描述特色与生成的作为之间没有直接关联,因此在较量争论 V 向量时我们选择不使用这一特色,以避免不必要的信息干扰。

结合 Efficient Attention 的全部注意力模板机制,SMA 层利用来自检索样本的辅助信息、用户文本的语义信息以及待去噪序列的特色信息,建立起一系列综合性的全部模板,使得所有条件信息能够被待生成序列充分吸收。

实验及结果

我们在两个数据集 HumanML3D [4] 和 KIT-ML [5] 上评估了 ReMoDiffuse。在与文本的一致性与作为质量两个角度上,实验结果(表 1、2)展示了我们提出的 ReMoDiffuse 框架的强大性能和优势。

ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了表 1. 不同办法在 HumanML3D 测试集上的表现

ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了表 2. 不同办法在 KIT-ML 测试集上的表现

以下是一些能定性展示 ReMoDiffuse 的强大性能的示例(图 4)。与之前的办法相比,例如,在给定文本 “一个人在圆圈里跳跃” 时,只有 ReMoDiffuse 能够准确捕捉到 “跳跃” 作为和 “圆圈” 路径。这表明 ReMoDiffuse 能够有效地捕捉文本细节,并将内容与给定的运动持续时间对齐。

ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了图 4. ReMoDiffuse 生成的作为序列与其他办法生成的作为序列的比较

我们对 Guo 等人的办法 [4]、MotionDiffuse [1]、MDM [6] 以及 ReMoDiffuse 所生成的相应作为序列进行了可视化展示,并以问卷形式收集测试参与者的意见。结果的分布情况如图 5 所示。从结果中可以清晰地看出,在大多数情况下,参与测试者认为我们的办法 —— 即 ReMoDiffuse 所生成的作为序列在四个算法中最贴合所给的文本描述,也最自然流畅。

ICCV 2023 | 重塑人体作为生成,融合集中模型与检索策略的新范式ReMoDiffuse来了图 5:用户调研的结果分布

引用

[1] Mingyuan Zhang, Zhongang Cai, Liang Pan, Fangzhou Hong, Xinying Guo, Lei Yang, and Ziwei Liu. Motiondiffuse: Text-driven human motion generation with diffusion model. arXiv preprint arXiv:2208.15001, 2022.

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.

[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, and Hongsheng Li. Efficient attention: Attention with linear complexities. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 3531–3539, 2021.

[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li, and Li Cheng. Generating diverse and natural 3d human motions from text. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5152–5161, 2022.

[5] Matthias Plappert, Christian Mandery, and Tamim Asfour. The kit motion-language dataset. Big data, 4 (4):236–252, 2016.

[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. In The Eleventh International Conference on Learning Representations, 2022.

给TA打赏
共{{data.count}}人
人已打赏
AI

生成式AI时代的模型收缩与加速,韩松主讲MIT课程,资料全公开

2023-9-25 17:08:00

AI

重温图灵原理,感受反证法的力量

2023-9-29 12:00:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索