当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩

看看这个 AI 生成的女团 MV 效果如何。如果你手机里有一些修图软件,你可能用过里面的「AI 绘画」功能,它通常会提供一些把照片转换为不同风格的选项,比如动漫风格、写真风格。但如今,视频也可以这么做了:这些动图来自 X 平台(原推特)网友 @CoffeeVectors 生成的一段视频。他把韩国女团 BLACKPINK 代表作《DDU-DU DDU-DU》的原版 MV 输入了一个 AI 工具,很快就得到了动漫版的 MV。完整效果是这样的:这个视频是借助一个名叫 ComfyUI 的工具来完成的。ComfyUI 是一个

看看这个 AI 生成的女团 MV 效果如何。

如果你手机里有一些修图软件,你可能用过里面的「AI 绘画」功能,它通常会提供一些把照片转换为不同风格的选项,比如动漫风格、写真风格。但如今,视频也可以这么做了:

当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩

当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩

当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩

这些动图来自 X 平台(原推特)网友 @CoffeeVectors 生成的一段视频。他把韩国女团 BLACKPINK 代表作《DDU-DU DDU-DU》的原版 MV 输入了一个 AI 工具,很快就得到了动漫版的 MV。

当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩

完整效果是这样的:当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩

这个视频是借助一个名叫 ComfyUI 的工具来完成的。ComfyUI 是一个开源的基于图形界面的 Workflow 可视化引擎,用于被广泛采用的文生图 AI 模型 Stable Diffusion。它提供了一个用户友好的图形界面,可以将多个 Stable Diffusion 模型及其 Hypernetwork 组合成一个完整的工作流(Workflow)实现自动化的图像生成和优化。同时,社区也开发了各种 ComfyUI 的扩展插件,可以进一步增强其功能。

作者 @CoffeeVectors 表示,在制作这个 MV 的过程时,他在 ComfyUI 中用到了 AnimateDiff 和 multi-controlnet 工作流,前者用于动漫风格的生成,后者用来实现生成效果的控制。更重要的是,他在这次工作流中引入了一个当下很火的神器 ——LCM LoRA。

在《实时文生图速度提升 5-10 倍,清华 LCM/LCM-LoRA 爆火,浏览超百万、下载超 20 万》一文中,我们已经介绍过,LCM 是清华大学交叉信息研究院的研究者们构建的一个新模型,它的特点是文生图、图生图的效果都非常快,可以根据你的文字指令或草图指示实时生成新图。

当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩

在此基础上,研究者们又进一步开发了 LCM-LoRA,可以将 LCM 的快速生成能力在未经任何额外训练的情况下迁移到其他 LoRA 模型上。由于效果非常惊艳,模型在 Hugging Face 平台上的下载量已超 20 万次,X 平台上到处都能看到利用 LCM-LoRA 生成的实时视频效果(如下方的视频所示)。当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩

那么,这个动漫版的 MV 是怎么做的呢?@CoffeeVectors 在帖子中详细描述了他的做法。

当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩

在下载了原版 MV 视频后,@CoffeeVectors 将 BLACKPINK 的整个 MV 作为单个 .mp4 输入进行处理。LCM 可以让他在 4090 上通过 6 步进行渲染(之前需要 20 多步),而且只占用 10.5 GB 的 VRAM。以下是详细数据:

整个渲染过程耗时 81 分钟,共 2,467 帧,每帧大约花 2 秒。这不包括从视频中提取图像序列和生成 ControlNet 映射的时间。在 SD 1.5 版中使用 Zoe Depth 和 Canny ControlNets,分辨率为 910 x 512。

要改进输出效果,使其风格更鲜明、细节更丰富、感觉不那么像一帧一帧的转描动画,就需要对单帧画面进行调整。但是,一次性完成整个视频,可以为你提供一个粗略的草稿,以便在此基础上进行迭代。

对于输入视频,他每隔一帧选取一帧,以达到 12 帧 / 秒的目标。

当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩

这是 @CoffeeVectors 添加 LCM LoRA 的截图。他选择了检查点中内置的 VAE:

当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩

他把提示写得很泛,想看看这个提示在各种镜头中的适配效果怎么样。

当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩

在 K 采样器中,他使用了 LCM 采样器。注意,你需要更新到最新版本的 ComfyUI 才能用这个采样器。

当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩

下图描述了 @CoffeeVectors 如何安排 multi-control net 的节点:   

当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩

最后,@CoffeeVectors 还推荐了一些相关教程:

当韩国女团BLACKPINK进军二次元,清华叉院AI神器原来还能这么玩

视频教程:https://www.youtube.com/watch?app=desktop&v=zrxd95Mxz24

技术博客:https://huggingface.co/blog/lcm_LoRA

对这类技术应用感兴趣的开发者们可以玩起来啦!

参考链接:

https://twitter.com/CoffeeVectors/status/1724579821093540182

https://hrefgo.com/blog/comfyui-a-comprehensive-guide-to-the-next-gen-stable-diffusion-gui

相关资讯

实时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万

生成式模型进入「实时」时代?文生图、图生图已经不是什么新鲜事。但在使用这些工具的过程中,我们发现它们通常运行缓慢,导致我们要等一段时间才能拿到生成结果。但最近,一种名叫「LCM」的模型改变了这种情况,它甚至能做到实时的连续生图。                               图源: 的全称是 Latent Consistency Models(潜在一致性模型),由清华大学交叉信息研究院的研究者们构建。在这个模型发布之前,Stable Diffusion 等潜在扩散模型(LDM)由于迭代采样过程计算量大

三秒4张图!让 Stable Diffusion 出图速度暴增的新一代生成模型LCM

大家好,这里是和你们一起探索 AI 的花生~ 最近一种新的图像生成形式逐渐兴起,即生成的图像会随输入的文字或笔画动作迅速变化,这让图像生成有了更多灵活探索和准确控制的空间。这种「实时反馈」的感觉源于模型能在几秒钟内,根据输入生成新的内容,而之所以能有这么快的生成速度,依靠的就是 LCM 这项新技术。视频内容来源: : 一、LCM 简介 LCM 项目主页: Github 主页: LCM 全称 Latent Consistency Models(潜在一致性模型),是清华大学交叉信息科学研究院研发的一款生成模型。它

ComfyUI神级插件!在PS中轻松实现 AI 图像生成、放大和重绘

大家好,这里是和你们一起探索 AI 的花生~ 今天为大家推荐一款我最近发现的非常厉害的 ComfyUI 插件 comfyui-photoshop,它由程序员 Nami 独立开发,将 ComfyUI 做为后端接入 Ps 中,借助其强大的 AI 生成能力,实现文生图、图生图、高清放大、局部重绘、外绘拓展等多种功能。 我也安装了这款插件,这个过程并不复杂,AI 出图非常稳定,软件之间的交互也非常顺畅;因为使用了 LCM lora,所以出图速度也非常快,可以做为 Ps 原生 AI 功能的平替,而且功能更多样。今天就为大家详