快手发布DragAnything,拖动锚点精准控制视频物体和镜头运动,视频运动控制技术革命性更新

快手联合浙江大学、新加坡国立大学发布了DragAnything ,利用实体表示实现对任何物体的运动控制。 该技术可以精确控制物体的运动,包括前景、背景和相机等不同元素。 该项目提供了对实体级别运动控制的新见解,通过实体表示揭示了像素级运动和实体级运动之间的差异。

快手联合浙江大学、新加坡国立大学发布了DragAnything ,利用实体表示实现对任何物体的运动控制。该技术可以精确控制物体的运动,包括前景、背景和相机等不同元素。

该项目提供了对实体级别运动控制的新见解,通过实体表示揭示了像素级运动和实体级运动之间的差异。与拖动像素范式不同,

DragAnything能够使用实体表示实现真正的实体级别运动控制。用户可以通过绘制轨迹与SAM进行互动。该项目能够精确控制物体的运动,生成高质量的视频。用户轨迹与SAM的交互图片

论文阅读

图片

  • 基于轨迹的可控生成的新见解揭示了像素级运动和实体级运动之间的差异。
  • DragAnything与拖动像素范例不同,它可以通过实体表示实现真正的实体级运动控制。

与DragNUWA的比较

DragNUWA导致第一排外观失真,第三排失控的天空和船,不正确的镜头运动(第五排),而DragAnthing可以精确控制运动。图片

更多的可视化拖动任何东西

提出的DragAnything可以在实体级精确控制物体的运动,产生高质量的视频。利用Co-Track实现了第20帧像素运动的可视化。图片

各种各样的运动控制

提出的DragAnything可以实现多种运动控制,如控制前景、背景和相机。图片

Badcase for DragNUWA

当前模型受到基础模型(稳定视频扩散)的性能限制,无法生成具有非常大运动的场景。这可能是由于运动过度,超过了基础模型的生成能力,导致视频质量崩溃。图片

摘要

我们提出了DragAnything,它利用实体表示来实现可控视频生成中任何对象的运动控制。与现有的运动控制方法相比,DragAnything具有几个优势。首先,基于轨迹的交互更人性化,当获取其他指导信号(例如,掩码、深度图)是劳动密集型时。用户只需要在交互过程中画一条线(轨迹)。其次,我们的实体表示作为一个开放域嵌入,能够表示任何对象,使包括背景在内的各种实体的运动控制成为可能。最后,我们的实体表示允许对多个对象进行同时和不同的运动控制。广泛的实验表明,我们的方法在FVD、FID和用户研究方面取得了最先进的性能,特别是在对象运动控制方面,我们的方法在人工投票中超过了以前的方法(例如,DragNUWA)26%。

动机

图片

启示1

物体上的轨迹点不能代表实体。从DragUNWA的像素运动轨迹可以看出,拖动云的像素点并不会导致云移动,相反,它会导致摄像机向上移动。这表明模型无法感知我们控制云的意图,这意味着单个点不能代表云。

启示2

对于轨迹点表示范式,靠近拖动点的像素受到的影响更大,导致更大的运动。通过比较,我们观察到在DragNUWA合成的视频中,靠近拖动点的像素表现出更大的运动。然而,我们期望的是物体按照提供的轨迹作为一个整体移动,而不是单个像素的运动。

图片

方法

图片该体系结构包括两个部分:

  • 实体语义表示抽取。基于实体掩码指标提取扩散模型的潜在特征作为对应的实体表示。
  • DragAnything的主框架。利用相应的实体表示和二维高斯表示来控制实体的运动。

相关资讯

阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节

本周,在阿里云通义千问 Qwen 团队提交的一篇论文中,研究人员发现了目前最热门的 MoE(混合专家模型)训练中存在的一个普遍关键问题,并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡,使得 MoE 模型的性能和专家特异性都得到了显著的提升。 论文:《Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models》论文链接: 模型训练中的关键问题混合专家模型(MoEs)通过路由机制动态并稀疏地激活模型参数,使得能高效地增大模型参数规模。 基于 TopK 机制的稀疏激活会在训练中会遇到专家激活不均衡的问题:少数被频繁选择的专家会被优化得更多,进一步使得这些专家被更频繁地选择,最终导致只选择少数专家,造成剩余专家的冗余。

东京大学 | Adobe 提出InstructMove,可通过观察视频中的动作来实现基于指令的图像编辑

InstructMove是一种基于指令的图像编辑模型,使用多模态 LLM 生成的指令对视频中的帧对进行训练。 该模型擅长非刚性编辑,例如调整主体姿势、表情和改变视点,同时保持内容一致性。 此外,该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。

阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像,ComfyUI可使用

阿里妈妈发布了一个新的ID保持项目EcomID,旨在从单个ID参考图像生成定制的保ID图像,优势在于很强的语义一致性,同时受人脸关键点控制。 EcomID 方法结合了 PuLID 和 InstantID 的优点,以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。 目前,EcomID 的 Comfyui 原生实现官方插件也已经发布,大家可以从文章中的链接获取。