【新智元导读】香港科技大学和特拉维夫大学的团队开源了鉴于视频大模型的「笔墨跳动」(Dynamic Typography)技术,仅需选择一个字母,并给出一段简单的笔墨描绘,就可以生成 SVG 动画让这个字母「跃然纸上」。
ROMANTIC(浪漫的)中的「M」,变成了一对情侣手拉手,前后走。
Father(父亲)中的「h」,被演绎为一个父亲耐心地牵着他的小孩一起散步。
PASSION(激情)中的「N」,可以化为一对情侣拥吻在一起。
SWAN(天鹅)中的「S」,竟变成一只天鹅优雅地伸展着她的脖颈。
TELESCOPE(望远镜) 中的「P」,成为了一个真的望远镜!缓缓地转向镜头。
这就是来自港科大和特拉维夫大学的钻研团队为我们带来的最新作品:Dynamic Typography。
论文链接: https://arxiv.org/abs/2404.11614
项目主页: https://animate-your-word.github.io/demo/
让笔墨动起来
文本动画是一种表达性的媒介,它将静态沟通转变为动态体验,从而唤起情感,强调文本的意义,并构建引人入胜的叙事,从而被广泛应用于梗图,视频,及广告制作中。然而,想要制作这样符合语义的动画需要在图形设计和动画制作方面的专业学问。
因此,钻研职员提出了一种全新自动化文本动画方案「笔墨跳动」,实现了文本与动画的完美融合。
该方案可以拆解为两个步骤:
1. 根据用户的描绘,字母将被变形从而传达文本语义。
2. 变形的字母将被赋予用户描绘的生动动态效果,从而达成笔墨动画。
在笔墨丝滑静止的同时坚持其可读性极具挑战性。当下的文生视频模型均难以保证生成可读的笔墨,更无法将笔墨根据其语义信息「变形」从而更好地传达静止信息。而重新训练这样的模型需要大量难以获取的风格化笔墨视频作为数据集。
钻研职员使用了 Score Distillation Sampling(SDS)技术,通过蒸馏大参数量文生视频基础模型中的先验学问,预测笔墨的矢量图中的控制点在每一帧的位移,并通过额外的可读性自在以及结构坚持技术实现了笔墨静止过程中可读性和外观的坚持。
钻研职员展示了他们提出的框架在各种文生视频模型上的通用性,并强调了该要领相比基线要领的优越性。尝试结果表明了他们的技术可以成功生成与用户描绘相符且连贯的文本动画,同时坚持了原笔墨可读性。
要领
1. 数据表征
在这项工作中,字母的轮廓被表征为若干条相连的三次贝塞尔曲线,由贝塞尔曲线控制点决定其形状。作者提出的要领为每一帧预测每个控制点的位移。这些位移将字母「变形」从而传达语义信息,并通过每一帧不同的位移加入静止。
字母的轮廓被提取为相连接的三次贝塞尔曲线
2. 模型框架
给定一个表征为贝塞尔曲线的字母,钻研职员首先使用一个鉴于坐标的 MLP(称为 Base Field,基础场)将字母变形可以表征其语义信息的 base shape,如图中的「CAMEL」的「M」被变形为骆驼的样子。
Base shape 紧接着被复制到每一帧,并通过另外一个鉴于坐标的 MLP(称为 Displacement Field,位移场)预测每个控制点在每一帧的位移,从而为 base shape 加入静止。
每一帧接着通过一个可微渲染器渲染为像素图片,并拼接为输出视频。基础场和位移场通过文生视频的先验学问以及其他的自在项完成端到端的共同优化。
3. 优化
当下鉴于扩散的文生图模型如 Stable Diffusion 通过大规模的二维像素图片进行训练,包含了丰富的先验学问。Score Distillation Sampling(SDS)旨在蒸馏扩散模型中的先验学问,用于训练其他模型生成其他模态的内容,如训练 NeRF 中 MLP 的参数从而生成 3D 模型。
在该工作中,钻研职员通过 SDS 蒸馏一个鉴于扩散的文生视频模型,鉴于得到的先验学问训练基础场以及位移场中的参数。
此外,为了保证生成视频的每一帧仍然坚持字母本身的可读性,(如单词「CAMEL」中的字母「M」在外观近似于骆驼的同时也需要坚持单词 M 的形状,使用户可以辨认出其是字母 M),该工作通过加入鉴于 Learned Perceptual Image Patch Similarity(LPIPS)的自在项,自在 base shape 与原字母的感知相似度。
为了缓解观察到的贝赛尔曲线频繁交叉导致严重闪烁的问题,该工作加入了鉴于三角化的结构坚持自在项,在变形以及静止的过程中维持稳定的骨架结构。
贝塞尔曲线的频繁交叉造成了严重的闪烁
鉴于三角化的 structure-preservation loss
尝试
尝试方面,钻研职员从笔墨的可读性(legibility)以及用户提供的文本描绘与视频的一致性两方面进行评估。
该工作与两类不同的要领进行了比较:一类是针对像素图的文生视频模型,另一类是针对矢量图的通用动画化方案。
在针对像素图的文生视频模型中,该工作与当下领先的文生视频模型 Gen-2 以及图生视频模型 DynamiCrafter 进行了比较。
通过定性以及定量的对比结果可以看出,其他的要领大多很难在生成视频时坚持字母的可读性,亦或难以生成符合语义的静止。而该论文提出的要领在生成符合用户给定的文本描绘的静止的同时,有效的坚持了字母在静止过程中的可读性。
与其他要领的定性对比
与其他要领的定量对比
为了进一步证明该工作中每一个模块的作用,钻研职员进行了充分的消融尝试。尝试结果表明,base shape 的设计以及鉴于三角化的结构坚持技术有效的提升了视频质量,而鉴于感官相似度的可读性自在有效的坚持了字母在静止过程中的可读性。
消融尝试定性结果
消融尝试定量结果
钻研职员进一步说明了他们提出的框架在各种文生视频模型上的通用性,这意味着该框架可以兼容于未来视频生成模型的进一步发展,并随着视频生成模型效果的提升生成更具吸引力的笔墨动画。
蒸馏不同视频生成模型的结果对比
参考资料:
https://arxiv.org/abs/2404.11614
本文来自微信公众号:新智元 (ID:AI_era)