快手发布DragAnything，拖动锚点精准控制视频物体和镜头运动，视频运动控制技术革命性更新

2025-02-05 10:30

快手联合浙江大学、新加坡国立大学发布了DragAnything ，利用实体表示实现对任何物体的运动控制。该技术可以精确控制物体的运动，包括前景、背景和相机等不同元素。该项目提供了对实体级别运动控制的新见解，通过实体表示揭示了像素级运动和实体级运动之间的差异。

快手联合浙江大学、新加坡国立大学发布了DragAnything ，利用实体表示实现对任何物体的运动控制。该技术可以精确控制物体的运动，包括前景、背景和相机等不同元素。

该项目提供了对实体级别运动控制的新见解，通过实体表示揭示了像素级运动和实体级运动之间的差异。与拖动像素范式不同，

DragAnything能够使用实体表示实现真正的实体级别运动控制。用户可以通过绘制轨迹与SAM进行互动。该项目能够精确控制物体的运动，生成高质量的视频。用户轨迹与SAM的交互

论文阅读

基于轨迹的可控生成的新见解揭示了像素级运动和实体级运动之间的差异。
DragAnything与拖动像素范例不同，它可以通过实体表示实现真正的实体级运动控制。

与DragNUWA的比较

DragNUWA导致第一排外观失真，第三排失控的天空和船，不正确的镜头运动(第五排)，而DragAnthing可以精确控制运动。

各种各样的运动控制

提出的DragAnything可以实现多种运动控制，如控制前景、背景和相机。

Badcase for DragNUWA

当前模型受到基础模型(稳定视频扩散)的性能限制，无法生成具有非常大运动的场景。这可能是由于运动过度，超过了基础模型的生成能力，导致视频质量崩溃。

摘要

我们提出了DragAnything，它利用实体表示来实现可控视频生成中任何对象的运动控制。与现有的运动控制方法相比，DragAnything具有几个优势。首先，基于轨迹的交互更人性化，当获取其他指导信号(例如，掩码、深度图)是劳动密集型时。用户只需要在交互过程中画一条线(轨迹)。其次，我们的实体表示作为一个开放域嵌入，能够表示任何对象，使包括背景在内的各种实体的运动控制成为可能。最后，我们的实体表示允许对多个对象进行同时和不同的运动控制。广泛的实验表明，我们的方法在FVD、FID和用户研究方面取得了最先进的性能，特别是在对象运动控制方面，我们的方法在人工投票中超过了以前的方法(例如，DragNUWA)26%。

动机

启示1

物体上的轨迹点不能代表实体。从DragUNWA的像素运动轨迹可以看出，拖动云的像素点并不会导致云移动，相反，它会导致摄像机向上移动。这表明模型无法感知我们控制云的意图，这意味着单个点不能代表云。

启示2

对于轨迹点表示范式，靠近拖动点的像素受到的影响更大，导致更大的运动。通过比较，我们观察到在DragNUWA合成的视频中，靠近拖动点的像素表现出更大的运动。然而，我们期望的是物体按照提供的轨迹作为一个整体移动，而不是单个像素的运动。

方法

该体系结构包括两个部分:

实体语义表示抽取。基于实体掩码指标提取扩散模型的潜在特征作为对应的实体表示。
DragAnything的主框架。利用相应的实体表示和二维高斯表示来控制实体的运动。

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

本周，在阿里云通义千问 Qwen 团队提交的一篇论文中，研究人员发现了目前最热门的 MoE（混合专家模型）训练中存在的一个普遍关键问题，并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡，使得 MoE 模型的性能和专家特异性都得到了显著的提升。论文：《Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models》论文链接：模型训练中的关键问题混合专家模型（MoEs）通过路由机制动态并稀疏地激活模型参数，使得能高效地增大模型参数规模。基于 TopK 机制的稀疏激活会在训练中会遇到专家激活不均衡的问题：少数被频繁选择的专家会被优化得更多，进一步使得这些专家被更频繁地选择，最终导致只选择少数专家，造成剩余专家的冗余。

1/24/2025 2:19:21 PM

机器之心

16张H100训26分钟，超越o1-preview！李飞飞等用1K样本，揭秘测试时Scaling

OpenAI o系列模型为何性能如此强大？ OpenAI将他们的方法描述为使用大规模强化学习（RL），暗示使用了大量的数据。最近大火的DeepSeek-R1模型也通过使用数百万个样本和多个训练阶段使用强化学习的方式，成功地达到了o1级别的性能。

2/6/2025 2:28:16 PM

新智元

英伟达联手MIT清北发布SANA 1.5！线性扩散Transformer再刷文生图新SOTA

近年来，文本生成图像的技术不断突破，但随着模型规模的扩大，计算成本也随之急剧上升。为此，英伟达联合MIT、清华、北大等机构的研究人员提出了一种高效可扩展的线性扩散Transformer——SANA，在大幅降低计算需求的情况下，还能保持有竞争力的性能。 SANA1.5在此基础上，聚焦了两个关键问题：线性扩散Transformer的可扩展性如何？

2/7/2025 2:01:20 PM

新智元

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部