智谱 AI 开源 CogVideoX-5B 视频生成模型，RTX 3060 显卡可运行

应用
8月28日
编辑

沛霖（实习）

智谱 AI 开源了 CogVideoX-5B 视频生成模型，相比此前开源的 CogVideoX-2B，官方称其视频生成质量更高，视觉效果更好。官方表示大幅度优化了模型的推理性能，推理门槛大幅降低，可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B ，在 RTX 3060 等桌面端“甜品卡”运行 CogVideoX-5B 模型。CogVideoX 是一个大规模 DiT（diffusion transformer）模型，用于文本生成视频任务，主要采用了以下技术：3D causal VAE：通过压缩视

智谱 AI 开源了 CogVideoX-5B 视频生成模型，相比此前开源的 CogVideoX-2B，官方称其视频生成质量更高，视觉效果更好。

官方表示大幅度优化了模型的推理性能，推理门槛大幅降低，可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B ，在 RTX 3060 等桌面端“甜品卡”运行 CogVideoX-5B 模型。

CogVideoX 是一个大规模 DiT（diffusion transformer）模型，用于文本生成视频任务，主要采用了以下技术：

3D causal VAE：通过压缩视频数据到 latent space，并在时间维度上进行解码来实现高效的视频重建。

专家 Transformer：将文本 embedding 和视频 embedding 相结合，使用 3D-RoPE 作为位置编码，采用专家自适应层归一化处理两个模态的数据，以及使用 3D 全注意力机制来进行时空联合建模。

CogVideoX-5B 与 CogVideoX-2B 详细参数比较如下：

智谱 AI 开源 CogVideoX-5B 视频生成模型，RTX 3060 显卡可运行

AI在线附相关链接：

代码仓库：https://github.com/THUDM/CogVideo

模型下载：https://huggingface.co/THUDM/CogVideoX-5b

论文链接：https://arxiv.org/pdf/2408.06072

{{userData.name}}已认证

智谱 AI 开源 CogVideoX-5B 视频生成模型，RTX 3060 显卡可运行

新手必看！5 款 Flux 实用基础工作流（附资源包）

亚马逊被曝 10 月发布 Alexa AI 订阅版：月费 10 美元，梳理、汇总用户感兴趣的信息流

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

钉钉AI重磅更新：深入业务场景，上线工单等场景AI助理

SU 哈佛亚马逊最新研究：量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了

AI 助力脑瘤手术：10 秒内精准识别残留肿瘤

全球首个：英伟达与软银试运行“AI+5G” 电信网络，号称投资 1 美元收入 5 美元

遏制电话诈骗新招：AI 老奶奶“废话反击”，40 分钟搞崩诈骗者心态

编程利器：OpenAI 升级 ChatGPT 应用，可配合 Xcode 等工具使用简化开发流程

超 12000 公里，国产腔镜手术机器人完成远程手术、加速出海