Open-Sora:让所有人都能轻松制作高效视频,可生成16秒720P视频,模型代码全开源!

Open-Sora是一项致力于高效制作高质量视频的计划。 目的是让所有人都能使用模型、工具和所有细节。 通过采用开源原则,Open-Sora 不仅使高级视频生成技术的使用变得民主化,而且还提供了一个简化且用户友好的平台,简化了视频生成的复杂性。

Open-Sora是一项致力于高效制作高质量视频的计划。目的是让所有人都能使用模型、工具和所有细节。通过采用开源原则,Open-Sora 不仅使高级视频生成技术的使用变得民主化,而且还提供了一个简化且用户友好的平台,简化了视频生成的复杂性。

Open-Sora的目标是在内容创作领域促进创新、创造力和包容性。目前已经支持2s~15s、144p 到 720p、任意比例的文本转图片、文本转视频、图片转视频、视频转视频、无限时间生成。

图片

Open-Sora的构建方法总结为以下几个方面:

  1. 数据来源与处理
  • 利用多个开放数据集(如Webvid-10M、Panda-70M等)生成30M个视频剪辑,确保模型训练的可重复性。
  • 数据预处理采用完整的管道,包括场景切割、视频过滤和文本生成,以确保高质量的视频文本对。
  1. 模型架构
  • 使用3D自编码器对视频进行压缩,减少计算负担,并通过文本编码器处理文本输入。
  • 采用空间-时间注意力机制,使得模型在生成视频时能够同时考虑空间和时间信息。
  1. 训练策略
  • 采用多阶段训练策略,分为三个阶段以优化训练效率。
  • 通过动态分辨率和宽高比的支持,模型能够适应不同的视频生成任务,提升生成质量。

相关链接

  • 论文:http://arxiv.org/abs/2412.20404v1
  • 代码:https://github.com/hpcaitech/Open-Sora

论文介绍

图片

视觉和语言是人类的两种基本感觉,它们构成了我们的认知能力和智力。虽然人工智能语言能力取得了重大突破,但人工智能视觉智能,尤其是生成和模拟我们所见世界的能力,却远远落后。

为了促进人工智能视觉智能的发展和普及,作者创建了 OpenSora,这是一个旨在生成高保真视频内容的开源视频生成模型。Open-Sora 支持广泛的视觉生成任务,包括文本到图像生成、文本到视频生成和图像到视频生成。该模型利用先进的深度学习架构和训练/推理技术实现灵活的视频合成,可以生成长达 15 秒、高达 720p 分辨率和任意宽高比的视频内容。

具体来说,OpenSora引入了时空扩散变换器 (STDiT),这是一种高效的视频扩散框架,可将空间和时间注意力分离。我们还引入了高度压缩的 3D 自动编码器,使表示紧凑,并通过临时训练策略进一步加速训练。

图片

Open-Sora 可以生成高保真视频。带有箭头的图像表示运动。

数据处理

高质量的数据对于训练良好的生成模型至关重要。为此,OpenSora建立了完整的数据处理流程,可以将原始视频无缝转换为高质量的视频-文本对。流程如下所示:

图片

视频描述

图片

数据预处理

图片

利用预训练的 2D 自动编码器的 3D 自动编码器。

模型结构

图片

模型架构基于 PixArt,这是一种图像扩散变换器,其中使用 T5 文本编码器对文本进行编码,并在视频和文本潜在特征之间应用交叉注意力。 为了实现高效的视频生成,采用了一种时空注意力机制,即受Latte启发的时空注意力机制,即空间时间扩散变换器 (STDiT),取代了对所有标记的完全注意力。具体而言,空间自注意力应用于每一帧内,而时间注意力应用于同一空间位置的跨帧。

为了专注于视频生成,该模型以构建一个强大的预训练图像生成模型。该模型使用 PixArtα 进行初始化,PixArtα 是一种经过 T5 条件处理的 DiT 结构,针对高质量和高效的图像生成进行了优化。新引入的时间注意力的投影层初始化为零,在训练开始时保留了模型的原始图像生成能力。时间注意力的加入使参数数量从 5.8 亿增加到 1.1 亿。

图片

图像和视频到视频生成的通用框架。

结论

Open-Sora 代表了开源视频生成领域的重大进步,它提供了一个包括数据处理、训练代码和模型权重的综合框架。通过成功复制 Sora 报告中的关键技术,并能够生成长达 16 秒的高质量视频,分辨率高达 720p,运动动态可控,Open-Sora 使高级视频生成技术的使用变得民主化。这一举措不仅促进了社区合作,还为该领域的未来发展奠定了基础。

相关资讯

人类模仿AI新赛道,AI:论疯癫,你是我爹

机器之能报道编辑:杨文AI被人类带坏!这个世界,太癫了……最近,社交媒体上冒出来一堆搞怪视频,打着 AI 的旗号,真人 cos AI,甚至抖音还专门出了个热门话题——人类模仿 AI 大赛。(视频来自抖音博主「关妮乱石」)视频链接::左边一张旧照片,右边打着「AI 修复」的字幕,实际由真人演绎着脑干缺失的狗血「剧情」。-1-AI:第一次被人冒充,没想到比我还抽象自从可灵、Luma 发布以来,全球网友组团整活,什么特朗普和拜登打啵,鳌拜和韦小宝秀恩爱,奥特曼和黄仁勋打起来……只有你想不到,没有 AI「祸害」不到。(查看

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

智谱大模型团队自研打造。自从快手可灵 AI 火爆海内外,国内视频生成也如同 2023 年的文本大模型一样,越来越卷了。刚刚,又一视频生成大模型产品宣布正式上线:智谱 AI 正式发布「清影」。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度视频。即日起,清影上线清言 App,所有用户都可以全方位体验对话、图片、视频、代码和 Agent 生成功能。除了覆盖智谱清言的网页端和 App,你也可以在「AI 动态照片小程序」上进行操作,快速为手机里的照片实现

开源视频生成天花板?最强搅局者Mochi 1免费直出电影级特效

AI视频生成赛道最强搅局者,来了! 何谓搅局? 下面这些是模型直出的效果,开源免费送给你!