LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯

有了 StoryDiffusion，更加同一性的图象和视频生成得到了保障。两天前，图灵奖得主 Yann LeCun 转载了「自己登上月球去探索」的长篇漫画，引起了网友的热议。其实，产出这些漫画的钻研出自南开大学、字节跳动等机构。在《StoryDiffusion：Consistent Self-Attention for long-range image and video generation》这篇论文中，该钻研团队提出了一种名为 StoryDiffusion 的新格式，用于生成同一的图象和视频以讲述复杂故事。论文

有了 StoryDiffusion，更加同一性的图象和视频生成得到了保障。

两天前，图灵奖得主 Yann LeCun 转载了「自己登上月球去探索」的长篇漫画，引起了网友的热议。

其实，产出这些漫画的钻研出自南开大学、字节跳动等机构。在《StoryDiffusion：Consistent Self-Attention for long-range image and video generation》这篇论文中，该钻研团队提出了一种名为 StoryDiffusion 的新格式，用于生成同一的图象和视频以讲述复杂故事。

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯

论文地址：https://arxiv.org/pdf/2405.01434v1

项目主页：https://storydiffusion.github.io/

相关项目已经在 GitHub 上获得了 1k 的 Star 量。

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯

GitHub 地址：https://github.com/HVision-NKU/StoryDiffusion

根据项目演示，StoryDiffusion 可以生成各种风格的漫画，在讲述连贯故事的同时，依旧了脚色风格和服装的同一性。

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯

StoryDiffusion 可以同时依旧多个脚色的身份，并在一系列图象中生成同一的脚色。

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯

此外，StoryDiffusion 还能够以生成的同一图象或用户输入的图象为条件，生成高质量的视频。

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯

我们知道，对于基于扩散的生成模型来说，如何在一系列生成的图象中依旧内容同一性，尤其是那些包含复杂中心和细节的图象，是一个重大挑战。

因此，该钻研团队提出了一种新的自注意力计算格式，称为同一性自注意力（Consistent Self-Attention），通过在生成图象时建立批内图象之间的联系，以依旧人物的同一性，无需训练即可生成中心同一的图象。

为了将这种格式扩展到长视频生成，该钻研团队引入了语义活动预测器 (Semantic Motion Predictor)，将图象编码到语义空间，预测语义空间中的活动，以生成视频。这比仅基于潜在空间的活动预测更加稳定。

然后举行框架整合，将同一性自注意力和语义活动预测器结合，可以生成同一的视频，讲述复杂的故事。相比现有格式，StoryDiffusion 可以生成更流畅、连贯的视频。

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯图 1: 通过该团队 StroyDiffusion 生成的图象和视频

格式概览

该钻研团队的格式可以分为两个阶段，如图 2 和图 3 所示。

在第一阶段，StoryDiffusion 运用同一性自注意力（Consistent Self-Attention）以无训练的方式生成中心同一的图象。这些同一的图象可以直接用于讲故事，也可以作为第二阶段的输入。在第二阶段，StoryDiffusion 基于这些同一的图象创建同一的过渡视频。

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯图 2:StoryDiffusion 生成中心同一图象的流程概述

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯图3：生成转场视频以获得中心同一图象的格式。

无训练的同一图象生成

钻研团队介绍了「如何以无训练的方式生成中心同一的图象」的格式。解决上述问题的关键在于如何依旧一批图象中脚色的同一性。这意味着在生成过程中，他们需要建立一批图象之间的联系。

在重新审视了扩散模型中不同注意力机制的作用之后，他们受到启发，探索利用自注意力来依旧一批图象内图象的同一性，并提出了同一性自注意力（Consistent Self-Attention）。

钻研团队将同一性自注意力插入到现有图象生成模型的 U-Net 架构中原有自注意力的位置，并重用原有的自注意力权重，以依旧无需训练和即插即用的特性。

鉴于配对 tokens，钻研团队的格式在一批图象上执行自注意力，促进不同图象特征之间的交互。这种类型的交互促使模型在生成过程中对脚色、面部和服装的收敛。尽管同一性自注意力格式简单且无需训练，但它可以有效地生成中心同一的图象。

为了更清楚地说明，钻研团队在算法 1 中展示了伪代码。

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯

用于视频生成的语义活动预测器

钻研团队提出了语义活动预测器（Semantic Motion Predictor），它将图象编码到图象语义空间中以捕获空间信息，从而实现从一个给定的起始帧和结束帧中举行更准确的活动预测。

更具体地说，在该团队所提出的语义活动预测器中，他们首先运用一个函数 E 来建立从 RGB 图象到图象语义空间向量的映射，对空间信息举行编码。

该团队并没有直接运用线性层作为函数 E，与之代替的是利用一个预训练的 CLIP 图象编码器作为函数 E，以利用其零样本（zero-shot）能力来提升性能。

运用函数 E，给定的起始帧 F_s 和结束帧 F_e 被压缩成图象语义空间向量 K_s 和 K_e。

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯

实验结果

在生成中心同一图象方面，由于该团队的格式是无需训练且可即插即用的，所以他们在 Stable Diffusion XL 和 Stable Diffusion 1.5 两个版本上都实现了这一格式。为了与比拟模型依旧同一，他们在 Stable-XL 模型上运用相同的预训练权重举行对照。

针对生成同一性视频，钻研者基于 Stable Diffusion 1.5 特化模型实现了他们的钻研格式，并整合了一个预训练的时间模块以支持视频生成。所有的比拟模型都采用了 7.5 classifier-free 指导得分和 50-step DDIM 采样。

同一性图象生成对照

该团队通过与两种最新的 ID 保存格式 ——IP-Adapter 和 Photo Maker—— 举行对照，评估了他们生成中心同一图象的格式。

为了测试性能，他们运用 GPT-4 生成了二十个脚色指令和一百个活动指令，以描述特定的活动。

定性结果如图 4 所示：「StoryDiffusion 能够生成高度同一的图象。而其他格式，如 IP-Adapter 和 PhotoMaker，可能会产生服饰不同一或文本可控性降低的图象。」

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯图4: 与目前格式在同一性图象生成上的比拟结果图

钻研者们在表 1 中展示了定额对照的结果。该结果显示：「该团队的 StoryDiffusion 在两个定额指标上都取得了最佳性能，这表明该格式在依旧脚色特性的同时，还能够很好地符合提示描述，并显示出其稳健性。」

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯表 1: 同一性图象生成的定额比拟结果

转场视频生成的比拟

在转场视频生成方面，钻研团队与两种最先进的格式 ——SparseCtrl 和 SEINE—— 举行了对照，以评估性能。

他们举行了转场视频生成的定性比拟，并将结果展示在图 5 中。结果显示：「该团队的 StoryDiffusion 显著优于 SEINE 和 SparseCtrl，并且生成的转场视频既平滑又符合物理原理。」

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯图 5: 目前运用各种最先进格式的转场视频生成比拟

他们还将该格式与 SEINE 和 SparseCtrl 举行了对照，并运用了包括 LPIPSfirst、LPIPS-frames、CLIPSIM-first 和 CLIPSIM-frames 在内的四个定额指标，如表 2 所示。

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯表 2: 与目前最先进转场视频生成模型的定额比拟

更多技术和实验细节请参阅原论文。

{{userData.name}}已认证

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯

看透物体的3D表现和生成模型：NUS团队提出X-Ray

特斯拉Optimus人形机器人进厂打工，娴熟分装电池、自我矫正，还能走更远了

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

平安人寿ChatBI：大模型智能化报表的深度实践

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！