中科大提出新视频流制作动画解决方案RAIN,可实现真人表情移植和动漫实时动画

中科大提出了一种新的视频流制作动画解决方案RAIN,能够使用单个RTX 4090 GPU 实时低延迟地为无限视频流制作动画。 RAIN 的核心思想是有效地计算不同噪声水平和长时间间隔的帧标记注意力,同时对比以前基于流的方法多得多的帧标记进行去噪。 这种设计允许 RAIN 生成具有更短延迟和更快速度的视频帧,同时保持对扩展视频流的远程注意力,从而增强连续性和一致性。

中科大提出了一种新的视频流制作动画解决方案RAIN,能够使用单个RTX 4090 GPU 实时低延迟地为无限视频流制作动画。RAIN 的核心思想是有效地计算不同噪声水平和长时间间隔的帧标记注意力,同时对比以前基于流的方法多得多的帧标记进行去噪。这种设计允许 RAIN 生成具有更短延迟和更快速度的视频帧,同时保持对扩展视频流的远程注意力,从而增强连续性和一致性。

下面展示跨领域人脸变形生成结果。实现了动漫人物的实时动画。真人表情

可以成功移植到动漫人物上,且生成稳定、一致、无限长。

图片

图片

RAIN可以在客户级设备上制作实时动画。

相关链接

  • 论文:http://arxiv.org/abs/2412.19489v1
  • 主页:https://pscgylotti.github.io/pages/RAIN

论文介绍

图片

RAIN:无限视频流的实时动画

实时动画因增强在线参与度而广受欢迎,但使用扩散模型实现高质量、实时和稳定的动画仍然具有挑战性,尤其是在消费级 GPU 上。现有方法难以有效地生成长而一致的视频流,通常受到延迟问题和长时间内视觉质量下降的限制。

在本文中,我们介绍了 RAIN,这是一种管道解决方案,能够使用单个 RTX 4090 GPU 实时低延迟地为无限视频流制作动画。RAIN 的核心思想是有效地计算不同噪声水平和长时间间隔的帧标记注意力,同时对比以前基于流的方法多得多的帧标记进行去噪。这种设计允许 RAIN 生成具有更短延迟和更快速度的视频帧,同时保持对扩展视频流的远程注意力,从而增强连续性和一致性。因此,使用 RAIN 在短短几个时期内进行微调的稳定扩散模型可以实时、低延迟地生成视频流,而不会在质量或一致性方面做出太大妥协,最长可达无限长。尽管 RAIN 拥有先进的功能,但它仅引入了一些额外的 1D 注意力模块,因此额外负担很小。在基准数据集中进行的实验和生成的超长视频表明,RAIN 可以实时为角色制作动画,并且质量、准确性和一致性远高于竞争对手,同时延迟更低。所有代码和模型都将公开发布。

框架

图片RAIN采用流水线式设计,用于流式视频推理。潜在状态由阶梯式噪声水平的帧填充。每次对一组帧进行去噪处理。因此RAIN支持生成无限长的视频。

为了加速,RAIN采用了多种加速方法。我们对 UNet 模型进行 LCM Distillation,并采用TAESDV作为 VAE 解码器。在 TensorRT 加速下,RAIN在单个 RTX 4090 上以 18 fps 的速度运行,延迟约为 1.5 秒,分辨率为 512x512,使用 DWPose 作为特征提取器。

全身动画

来自 UBC-Fashion 数据集的测试示例,该模型仅在训练数据集中的 500 个视频片段上进行训练。

图片

跨域人脸变形

脸部变形示例,真实脸部的表情和头部位置被映射到动漫脸部中。

图片

未来

RAIN提供了一种使用 AI 渲染实时动画的可能方式。期待未来可以将 AI 与 CG 结合起来渲染游戏、直播和虚拟现实。可以充分利用 AI 的泛化能力来渲染无数新场景和对象,并提供一种更具互动性的方式来参与合成的世界。

相关资讯

盘点如何用AI做动画,还有各种工具等你取用

图像生成、视频生成、整合语音合成的人脸动画、生成三维的人物运动以及 LLM 驱动的工具…… 一切都在这篇文章中。生成式 AI 已经成为互联网的一个重要内容来源,现在你能看到 AI 生成的文本、代码、音频、图像以及视频和动画。今天我们要介绍的文章来自立陶宛博主和动画师 aulerius,其中按层级介绍和分类了动画领域使用的生成式 AI 技术,包括简要介绍、示例、优缺点以及相关工具。他写道:「作为一位动画制作者,我希望一年前就有这样一份资源,那时候我只能在混乱的互联网上自行寻找可能性和不断出现的进展。」本文的目标读者是

一键照片变表情包,腾讯混元与港科大、清华推出“Follow Your Emoji”

腾讯混元联合港科大、清华大学推出肖像动画生成框架“Follow Your Emoji”,只需给定一张照片,“Follow Your Emoji”就能将其转化为“活灵活现”的面部动画,同时能够捕捉微妙表情变化。IT之家附论文地址::,“Follow Your Emoji”可以支持对脸部进行精细化的控制,包括眉毛,眼珠,翻白眼等细节,动物表情包也可以轻松“拿捏”。此外,Follow Your Emoji 不仅支持单个表情多肖像的生成,也支持单个肖像多表情的生成。▲ 最左为原始图片“Follow Your Emoji”有

SIGGRAPH 2021 | 学习带神经融合形状的人物动画

本文是对发表于计算机图形学顶级会议 SIGGRAPH 2021 的论文 Learning Skeletal Articulations with Neural Blend Shapes 的解读。 该论文由北京大学陈宝权教授研究团队与北京电影学院未来影像高精尖创新中心、Google Research、特拉维夫大学以及苏黎世联邦理工学院合作,针对骨骼驱动的模型动画的高质量自动化生成进行改进,提出了神经融合形状技术。实验证明,该方法显著减少了已有方法中需要的人工干预,大大提升了生成动画的质量。