厦门大学联合网易提出StoryWeaver,可根据统一模型内给定的角色实现高质量的故事可视化

本文经AIGC Studio公众号授权转载,转载请联系出处。 厦门大学联合网易提出StoryWeaver,可以根据统一模型内给定的角色实现高质量的故事可视化。 可根据故事文本生成与之匹配的图像,并且确保每个角色在不同的场景中保持一致。

本文经AIGC Studio公众号授权转载,转载请联系出处。

厦门大学联合网易提出StoryWeaver,可以根据统一模型内给定的角色实现高质量的故事可视化。可根据故事文本生成与之匹配的图像,并且确保每个角色在不同的场景中保持一致。本文的方法主要包括以下几个步骤:

  • 1. 角色图构建:设计一个角色图(CG),将故事中的角色、事件和属性节点结构化表示。角色作为对象节点,属性节点则附加在角色上,角色之间的关系通过边连接,形成一个全面的知识网络。
  • 2. 定制化生成:通过角色图(C-CG)进行定制化,生成详细的场景描述,捕捉角色的细节和它们之间的互动。使用视觉语言模型(VLM)提取图像的丰富语义信息,并通过场景图解析器提取事件相关的语义。
  • 3. 知识增强的空间引导:在交叉注意力机制中引入知识增强的空间引导,以修改注意力图,确保角色在生成过程中的一致性。通过分配外部知识来优化角色在图像中的位置和关系,从而改善多角色生成的质量。图片

图片StoryWeaver 可以根据统一模型内给定的角色实现高质量的故事可视化。

相关链接

  • 论文:http://arxiv.org/abs/2412.07375v2
  • 主页:https://github.com/Aria-Zhangjl/StoryWeaver

论文阅读

图片StoryWeaver:知识增强型故事角色定制的统一世界模型

摘要

故事可视化在人工智能领域越来越受到关注。然而,现有的方法仍然难以在角色身份保存和文本语义对齐之间保持平衡,这主要是由于缺乏对故事场景的详细语义建模。

为了应对这一挑战,论文提出了一种新的知识图谱即角色图谱(CG),它全面代表了各种与故事相关的知识,包括角色、与角色相关的属性以及角色之间的关系。然后介绍了StoryWeaver,这是一个通过角色图谱 (CCG) 实现定制的图像生成器,能够实现具有丰富文本语义的一致故事可视化。为了进一步提高多角色生成性能,论文将知识增强空间引导 (KE-SG) 结合到 StoryWeaver 中,以精确地将角色语义注入生成中。

为了验证提出方法的有效性,文中使用一个名为 TBC-Bench 的新基准进行了广泛的实验。实验证实 StoryWeaver 不仅擅长创造生动的视觉故事情节,而且还擅长在各种场景中准确传达人物身份,并且具有相当高的存储效率,例如,DINO-I 平均提升了 9.03%,CLIP-T 平均提升了 13.44%。此外,还进行了消融实验以验证所提模块的优越性。

方法

图片StoryWeaver 的整体框架。

a. 论文提出 Character-Graph 来表示故事世界中的语义丰富知识。

b. 通过提出的空间指导增强了 StoryWeaver,以进一步提高多角色生成的性能

图片通过字符图 (C-CG) 和知识增强空间引导 (KE-SG) 进行定制的影响的视觉示例。

a. 如果没有 C-CG,生成器将难以捕捉角色的更细粒度的细节。

b. 如果没有 KESG,生成器倾向于在所有区域均匀分配注意力,从而导致身份混合。

结果

图片不同方法在单角色和多角色视觉叙事上的视觉比较。StoryWeaver 擅长角色身份定制和匹配良好的语义对齐。

图片(a)单字符生成示例

图片(b)多字符生成示例

图片

图片Pororo 数据集上的多角色故事可视化示例。

图片收集的角色和样本集中于两部动画片,即《波鲁鲁》和《冰雪奇缘》。这些样本包括对单个角色的详细描述以及展示多个角色之间互动的场景。

结论

论文提出了一个统一的模型StoryWeaver,该框架具有复杂的角色定制功能,可用于故事可视化。论文首先提出了一种新颖的角色图,它将故事世界中的丰富语义知识封装起来以增强StoryWeaver。然后引入知识增强的空间指导来改进交叉注意力图,以实现精确的多角色生成。实验结果表明,与一组单一和多重定制方法相比,StoryWeaver 在身份定制方面实现了更好的保真度,并实现了更好的语义对齐。

相关资讯

ChatGPT写的论文有多少发表了?搜完谷歌学术以后我慌了

连「作为一个大模型……」这样的 AI 语都忘了删就提交,结果还过审发表了。

AI 青年,执掌未来十年的钥匙,2024 WAIC·云帆奖得主揭晓

期待更多奋斗在 AI 第一线的青年先锋,积极思考如何将更通用的 AI 技术,更有效地应用到更广泛、更多元的实际生产生活场景中,使之成为真正推动社会和经济发展的引擎。7 月 5 日,在 2024 WAIC·云帆奖颁奖典礼暨人工智能青年先锋论坛上,举行了最新一届的「WAIC·云帆奖」颁奖典礼。2024 年 WAIC·云帆奖共收到来自全球的近 200 份有效报名和提名,最终遴选出 10 位璀璨明星和 15 位明日之星。他们中有来自海内外著名高校的青年教师及博士后研究员,AI 领先企业的技术负责人、也有参与创立了新一代 A

首位“AI 科学家”问世:已独立生成 10 篇学术论文,还顺手搞了 AI 审稿人

史上首位“AI 科学家”,横空出世!一登场就一口气生成了十篇完整学术论文。▲ AI 生成的一篇扩散模型论文从提出研究想法、检查创新性、设计实验、编写代码,到在 GPU 上执行实验并收集结果,最后完成论文撰写,一气呵成。全由这位“AI 科学家”自动搞定。每篇论文的成本约为 15 美元(约 107.62 元)。这就是第一个用于自动化科学研究和开放式发现的综合 AI 系统,The AI Scientist。来自 Transformer 作者之一 Llion Jones 的创业公司:Sakana AI。而且!这公司搞的事情