当韩国女团BLACKPINK进军二次元，清华叉院AI神器原来还能这么玩

看看这个 AI 生成的女团 MV 成效如何。如果你手机里有一些修图软件，你可能用过里面的「AI 绘画」功能，它通常会提供一些把照片转换为不同气概的选项，比如动漫气概、写真气概。但如今，视频也可以这么做了：这些动图来自 X 平台（原推特）网友 @CoffeeVectors 生成的一段视频。他把韩国女团 BLACKPINK 代表作《DDU-DU DDU-DU》的原版 MV 输出了一个 AI 工具，很快就得到了动漫版的 MV。完整成效是这样的：这个视频是借助一个名叫 ComfyUI 的工具来完成的。ComfyUI 是一个

看看这个 AI 生成的女团 MV 成效如何。

如果你手机里有一些修图软件，你可能用过里面的「AI 绘画」功能，它通常会提供一些把照片转换为不同气概的选项，比如动漫气概、写真气概。但如今，视频也可以这么做了：

这些动图来自 X 平台（原推特）网友 @CoffeeVectors 生成的一段视频。他把韩国女团 BLACKPINK 代表作《DDU-DU DDU-DU》的原版 MV 输出了一个 AI 工具，很快就得到了动漫版的 MV。

当韩国女团BLACKPINK进军二次元，清华叉院AI神器原来还能这么玩

完整成效是这样的：当韩国女团BLACKPINK进军二次元，清华叉院AI神器原来还能这么玩

这个视频是借助一个名叫 ComfyUI 的工具来完成的。ComfyUI 是一个开源的基于图形界面的 Workflow 可视化引擎，用于被广泛采用的文生图 AI 模型 Stable Diffusion。它提供了一个用户友好的图形界面，可以将多个 Stable Diffusion 模型及其 Hypernetwork 组合成一个完整的工作流（Workflow）实现自动化的图象生成和优化。同时，社区也开发了各种 ComfyUI 的扩展插件，可以进一步增强其功能。

作者 @CoffeeVectors 表示，在制作这个 MV 的过程时，他在 ComfyUI 中用到了 AnimateDiff 和 multi-controlnet 工作流，前者用于动漫气概的生成，后者用来实现生成成效的控制。更重要的是，他在这次工作流中引入了一个当下很火的神器 ——LCM LoRA。

在《及时文生图速度提升 5-10 倍，清华 LCM/LCM-LoRA 爆火，浏览超百万、下载超 20 万》一文中，我们已经介绍过，LCM 是清华大学交叉信息研究院的研究者们构建的一个新模型，它的特点是文生图、图生图的成效都非常快，可以根据你的文字指令或草图指示及时生成新图。

当韩国女团BLACKPINK进军二次元，清华叉院AI神器原来还能这么玩

在此基础上，研究者们又进一步开发了 LCM-LoRA，可以将 LCM 的快速生成能力在未经任何额外训练的情况下迁移到其他 LoRA 模型上。由于成效非常惊艳，模型在 Hugging Face 平台上的下载量已超 20 万次，X 平台上到处都能看到利用 LCM-LoRA 生成的及时视频成效（如下方的视频所示）。当韩国女团BLACKPINK进军二次元，清华叉院AI神器原来还能这么玩

那么，这个动漫版的 MV 是怎么做的呢？@CoffeeVectors 在帖子中详细描述了他的做法。

当韩国女团BLACKPINK进军二次元，清华叉院AI神器原来还能这么玩

在下载了原版 MV 视频后，@CoffeeVectors 将 BLACKPINK 的全部 MV 作为单个 .mp4 输出举行处理。LCM 可以让他在 4090 上通过 6 步举行衬着（之前需要 20 多步），而且只占用 10.5 GB 的 VRAM。以下是详细数据：

全部衬着过程耗时 81 分钟，共 2,467 帧，每帧大约花 2 秒。这不包括从视频中提取图象序列和生成 ControlNet 映射的时间。在 SD 1.5 版中使用 Zoe Depth 和 Canny ControlNets，分辨率为 910 x 512。

要改进输出成效，使其气概更鲜明、细节更丰富、感觉不那么像一帧一帧的转描动画，就需要对单帧画面举行调整。但是，一次性完成全部视频，可以为你提供一个粗略的草稿，以便在此基础上举行迭代。

对于输出视频，他每隔一帧选取一帧，以达到 12 帧 / 秒的目标。

当韩国女团BLACKPINK进军二次元，清华叉院AI神器原来还能这么玩

这是 @CoffeeVectors 添加 LCM LoRA 的截图。他选择了检查点中内置的 VAE：

当韩国女团BLACKPINK进军二次元，清华叉院AI神器原来还能这么玩

他把提示写得很泛，想看看这个提示在各种镜头中的适配成效怎么样。

当韩国女团BLACKPINK进军二次元，清华叉院AI神器原来还能这么玩

在 K 采样器中，他使用了 LCM 采样器。注意，你需要更新到最新版本的 ComfyUI 才能用这个采样器。

当韩国女团BLACKPINK进军二次元，清华叉院AI神器原来还能这么玩

下图描述了 @CoffeeVectors 如何安排 multi-control net 的节点：

当韩国女团BLACKPINK进军二次元，清华叉院AI神器原来还能这么玩

最后，@CoffeeVectors 还推荐了一些相关教程：

当韩国女团BLACKPINK进军二次元，清华叉院AI神器原来还能这么玩

视频教程：https://www.youtube.com/watch?app=desktop&v=zrxd95Mxz24

技术博客：https://huggingface.co/blog/lcm_LoRA

对这类技术应用感兴趣的开发者们可以玩起来啦！

参考链接：

Testing LCM LORAs in an AnimateDiff & multi-controlnet workflow in ComfyUI. I was able to process this entire Black Pink music video as a single .mp4 input. The LCM lets me render at 6 steps (vs 20+) on my 4090 and uses up only 10.5 GB of VRAM. Here's a breakdown 🧵[1/11] pic.twitter.com/E4eGGYowyH
— CoffeeVectors (@CoffeeVectors) November 15, 2023

https://hrefgo.com/blog/comfyui-a-comprehensive-guide-to-the-next-gen-stable-diffusion-gui

{{userData.name}}已认证

当韩国女团BLACKPINK进军二次元，清华叉院AI神器原来还能这么玩

当数据成为「生产资料」，三篇论文总结如何用水印技术养护AI训练数据版权

微软深夜放大招：GPT-4 、DALL·E 3、GPTs免费用，自研大模型专用AI芯片

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践