字节视频生成新突破!Phantom搞定多人物/主体一致性

视频生成模型当中已经不缺强者了,但保持多主体一致性依然是一项重大挑战。 字节智能创作团队专门针对这个问题,推出了主体一致性视频生成模型Phantom(“幻影”)。 Phantom在主体一致性保持方面取得了突破性进展,不仅支持多主体,还能同时保持主体的完整性。

视频生成模型当中已经不缺强者了,但保持多主体一致性依然是一项重大挑战。

字节智能创作团队专门针对这个问题,推出了主体一致性视频生成模型Phantom(“幻影”)。

Phantom在主体一致性保持方面取得了突破性进展,不仅支持多主体,还能同时保持主体的完整性。

图片

无论是人物、物品、服装、动物,还是充满奇幻色彩的虚拟角色,它都能精准抓取其关键特征,并自然地融入生成的视频中。

比如下面这段视频当中,“幻影”就结合了场景、服装、配饰等要素,原创出了“歌剧魅影”的片段:

字节视频生成新突破!Phantom搞定多人物/主体一致性

精准抓取关键特征,视频融合更自然

身份保持视频生成

借助面部参考图像,Phantom生成的视频不仅能严格锁定主体的身份特征,还能依据丰富多样的提示词,演绎出各种精彩内容。

字节视频生成新突破!Phantom搞定多人物/主体一致性

例如,上传一张人物照片,模型会以此为蓝本,生成该人物在不同场景下说话、行动的视频。

字节视频生成新突破!Phantom搞定多人物/主体一致性

人物的面部轮廓、五官细节以及独特的表情神态,都能被高度还原,仿佛照片中的人物“活”了过来,在屏幕上真实地演绎着各种故事。

字节视频生成新突破!Phantom搞定多人物/主体一致性

单参考主体视频生成

只需一张参考图像,无论是可爱小动物的萌态瞬间,还是时尚服装的独特魅力,亦或是神秘虚拟角色的奇幻冒险,Phantom都能精准捕捉主体的细节,将其生动地呈现在视频中。

字节视频生成新突破!Phantom搞定多人物/主体一致性

还有下面的小狗照片,Phantom可以呈现它在温馨的房间里欢快奔跑的可爱模样,柔软的毛发、灵动的眼神和俏皮的神态,都被细腻地刻画出来,让人仿佛能感受到活泼与快乐。

字节视频生成新突破!Phantom搞定多人物/主体一致性

多参考主体视频生成

Phantom支持同时上传多张参考图像,这一强大功能使得复杂交互场景的视频生成成为可能。

在群体场景创作中,只需上传多个人物的照片,就能让他们在视频中自然地聊天。

字节视频生成新突破!Phantom搞定多人物/主体一致性

在一些产品展示的场景,结合产品图片和相关场景图片,Phantom能生成非常具有吸引力的产品展示视频,将产品的特点和优势完美呈现,为产品推广注入强大动力。

字节视频生成新突破!Phantom搞定多人物/主体一致性

虚拟试穿场景,只需上传服装和人物照片,就能看到人物身着该服装的动态效果,这有望为电商行业带来全新的营销模式,让消费者的购物体验更加直观和有趣。

字节视频生成新突破!Phantom搞定多人物/主体一致性

总之,Phantom在和一众领先的商业化工具对比中,从视频质量,文本响应,主体一致性等多个维度处于优势,尤其在人脸ID一致性方面的评估领先。

图片

图片

基于主体的DiT视频生成方案

目前,基础视频生成模型主要集中在两个主要任务——文本生成视频(Text-to-Video,T2V)和图像生成视频(Image-to-Video,I2V)。

视频生成T2V利用语言模型来理解输入文本指令,并生成描述预期角色、动作和背景的视觉内容。

尽管它允许创造性和富有想象力的内容组合,但由于固有的随机性,往往难以生成一直符合预期的结果。

另一方面,I2V通常是提供图像的首帧以及可选的文本描述,以将静态图像转化为动态视频。

虽然更具可控性,但内容的丰富度往往受到首帧“复制粘贴”性质的限制。通过从图像中捕捉主体并根据文本提示灵活生成视频。

Phantom是一个基于DiT的视频生成框架,它的主要意图是实现主体到视频的生成(Subject-to-video,S2V)。

其本质在于平衡文本和图像这两种模式的提示,要求模型同时对齐文本指令和参考图像内容。

从而既满足T2V所发挥创造性的优势,又不像I2V生成的视频限制为输入图的延展。

图片

具体来说,数据层面Phantom通过构建文本-图片-视频三元组数据,让模型学习不同模态之间的对齐。

为了缓解类似I2V生成视频“复制粘贴”输入图的问题,通过匹配不同视频中的主体元素,并过滤掉具有高度视觉相似性的对象来构建交叉配对数据。

交叉配对数据可以来自同一长视频的不同片段,也可以来自数据库中检索参考对象。这些主体元素主要包括人、动物、物体、背景等等。

此外,多个元素之间的交互可以进一步对场景进行分类,例如多人交互、人与宠物交互、人与物体交互。

模型层面,Phantom继承自MMDiT的架构。

在输入头部分,视频编码器和文本编码器分别继承自基模权重,将输入视频和文本prompt分别编码得到相应的latent feature。

为了不影响MMDiT本身的结构,参考图被特定视觉编码器编码,然后分别与视频特征和文本特征拼接,并分别输入到MMDiT的vision branch和text branch进行计算。

团队简介

智能创作团队是字节跳动AI&多媒体技术中台,通过建设领先的计算机视觉、音视频编辑、特效处理等技术,支持抖音、剪映、即梦等公司内众多产品线;

同时通过火山引擎为外部ToB合作伙伴提供业界最前沿的智能创作能力与行业解决方案。

文中示例仅为展示模型效果。如有侵权或冒犯,请联系论文作者,将及时删除。E-mail:[email protected]

论文链接:https://arxiv.org/abs/2502.11079项目网站:https://phantom-video.github.io/Phantom/代码网址:https://github.com/Phantom-video/Phantom

相关资讯

东京大学 | Adobe 提出InstructMove,可通过观察视频中的动作来实现基于指令的图像编辑

InstructMove是一种基于指令的图像编辑模型,使用多模态 LLM 生成的指令对视频中的帧对进行训练。 该模型擅长非刚性编辑,例如调整主体姿势、表情和改变视点,同时保持内容一致性。 此外,该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。

阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像,ComfyUI可使用

阿里妈妈发布了一个新的ID保持项目EcomID,旨在从单个ID参考图像生成定制的保ID图像,优势在于很强的语义一致性,同时受人脸关键点控制。 EcomID 方法结合了 PuLID 和 InstantID 的优点,以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。 目前,EcomID 的 Comfyui 原生实现官方插件也已经发布,大家可以从文章中的链接获取。

o1推理框架最新成果:斯坦福&伯克利提出元链式思维,升级模型推理能力

o1背后的推理原理,斯坦福和伯克利帮我们总结好了! 在最新的一篇长达100页的论文中,他们将o1模型背后的推理机制提炼成了一个通用的框架——元链式思维(Meta-CoT)。 这个元链式思维(Meta-CoT)到底是什么意思呢?