Open-Sora：让所有人都能轻松制作高效视频，可生成16秒720P视频，模型代码全开源！

2025-01-10 09:40

Open-Sora是一项致力于高效制作高质量视频的计划。目的是让所有人都能使用模型、工具和所有细节。通过采用开源原则，Open-Sora 不仅使高级视频生成技术的使用变得民主化，而且还提供了一个简化且用户友好的平台，简化了视频生成的复杂性。

Open-Sora的目标是在内容创作领域促进创新、创造力和包容性。目前已经支持2s~15s、144p 到 720p、任意比例的文本转图片、文本转视频、图片转视频、视频转视频、无限时间生成。

Open-Sora的构建方法总结为以下几个方面：

数据来源与处理

利用多个开放数据集（如Webvid-10M、Panda-70M等）生成30M个视频剪辑，确保模型训练的可重复性。
数据预处理采用完整的管道，包括场景切割、视频过滤和文本生成，以确保高质量的视频文本对。

模型架构

使用3D自编码器对视频进行压缩，减少计算负担，并通过文本编码器处理文本输入。
采用空间-时间注意力机制，使得模型在生成视频时能够同时考虑空间和时间信息。

训练策略

采用多阶段训练策略，分为三个阶段以优化训练效率。
通过动态分辨率和宽高比的支持，模型能够适应不同的视频生成任务，提升生成质量。

论文介绍

视觉和语言是人类的两种基本感觉，它们构成了我们的认知能力和智力。虽然人工智能语言能力取得了重大突破，但人工智能视觉智能，尤其是生成和模拟我们所见世界的能力，却远远落后。

为了促进人工智能视觉智能的发展和普及，作者创建了 OpenSora，这是一个旨在生成高保真视频内容的开源视频生成模型。Open-Sora 支持广泛的视觉生成任务，包括文本到图像生成、文本到视频生成和图像到视频生成。该模型利用先进的深度学习架构和训练/推理技术实现灵活的视频合成，可以生成长达 15 秒、高达 720p 分辨率和任意宽高比的视频内容。

具体来说，OpenSora引入了时空扩散变换器 (STDiT)，这是一种高效的视频扩散框架，可将空间和时间注意力分离。我们还引入了高度压缩的 3D 自动编码器，使表示紧凑，并通过临时训练策略进一步加速训练。

Open-Sora 可以生成高保真视频。带有箭头的图像表示运动。

数据处理

高质量的数据对于训练良好的生成模型至关重要。为此，OpenSora建立了完整的数据处理流程，可以将原始视频无缝转换为高质量的视频-文本对。流程如下所示:

视频描述

数据预处理

利用预训练的 2D 自动编码器的 3D 自动编码器。

模型结构

模型架构基于 PixArt，这是一种图像扩散变换器，其中使用 T5 文本编码器对文本进行编码，并在视频和文本潜在特征之间应用交叉注意力。为了实现高效的视频生成，采用了一种时空注意力机制，即受Latte启发的时空注意力机制，即空间时间扩散变换器 (STDiT)，取代了对所有标记的完全注意力。具体而言，空间自注意力应用于每一帧内，而时间注意力应用于同一空间位置的跨帧。

为了专注于视频生成，该模型以构建一个强大的预训练图像生成模型。该模型使用 PixArtα 进行初始化，PixArtα 是一种经过 T5 条件处理的 DiT 结构，针对高质量和高效的图像生成进行了优化。新引入的时间注意力的投影层初始化为零，在训练开始时保留了模型的原始图像生成能力。时间注意力的加入使参数数量从 5.8 亿增加到 1.1 亿。

图像和视频到视频生成的通用框架。

结论

Open-Sora 代表了开源视频生成领域的重大进步，它提供了一个包括数据处理、训练代码和模型权重的综合框架。通过成功复制 Sora 报告中的关键技术，并能够生成长达 16 秒的高质量视频，分辨率高达 720p，运动动态可控，Open-Sora 使高级视频生成技术的使用变得民主化。这一举措不仅促进了社区合作，还为该领域的未来发展奠定了基础。

人类模仿AI新赛道，AI：论疯癫，你是我爹

机器之能报道编辑：杨文AI被人类带坏！这个世界，太癫了……最近，社交媒体上冒出来一堆搞怪视频，打着 AI 的旗号，真人 cos AI，甚至抖音还专门出了个热门话题——人类模仿 AI 大赛。（视频来自抖音博主「关妮乱石」）视频链接：：左边一张旧照片，右边打着「AI 修复」的字幕，实际由真人演绎着脑干缺失的狗血「剧情」。-1-AI：第一次被人冒充，没想到比我还抽象自从可灵、Luma 发布以来，全球网友组团整活，什么特朗普和拜登打啵，鳌拜和韦小宝秀恩爱，奥特曼和黄仁勋打起来……只有你想不到，没有 AI「祸害」不到。（查看

7/16/2024 6:37:00 PM

机器之能

智谱AI杀入视频生成：「清影」上线，时长6秒，免费不限量

智谱大模型团队自研打造。自从快手可灵 AI 火爆海内外，国内视频生成也如同 2023 年的文本大模型一样，越来越卷了。刚刚，又一视频生成大模型产品宣布正式上线：智谱 AI 正式发布「清影」。只要你有好的创意（几个字到几百个字），再加上一点点耐心（30 秒），「清影」就能生成 1440x960 清晰度的高精度视频。即日起，清影上线清言 App，所有用户都可以全方位体验对话、图片、视频、代码和 Agent 生成功能。除了覆盖智谱清言的网页端和 App，你也可以在「AI 动态照片小程序」上进行操作，快速为手机里的照片实现

7/26/2024 11:46:00 AM

机器之心

开源视频生成天花板？最强搅局者Mochi 1免费直出电影级特效

AI视频生成赛道最强搅局者，来了！何谓搅局？下面这些是模型直出的效果，开源免费送给你！

11/4/2024 2:40:00 PM

新智元

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星本地部署DeepSeek+DiFy平台构建智能体应用 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练

顶部