智谱 AI 开源 CogVideoX-5B 视频生成模型，RTX 3060 显卡可运行

智谱 AI 开源了 CogVideoX-5B 视频生成模型，相比此前开源的 CogVideoX-2B，官方称其视频生成质量更高，视觉效果更好。官方表示大幅度优化了模型的推理性能，推理门槛大幅降低，可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B ，在 RTX 3060 等桌面端“甜品卡”运行 CogVideoX-5B 模型。CogVideoX 是一个大规模 DiT（diffusion transformer）模型，用于文本生成视频任务，主要采用了以下技术：3D causal VAE：通过压缩视

智谱 AI 开源了 CogVideoX-5B 视频生成模型，相比此前开源的 CogVideoX-2B，官方称其视频生成质量更高，视觉效果更好。

官方表示大幅度优化了模型的推理性能，推理门槛大幅降低，可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B ，在 RTX 3060 等桌面端“甜品卡”运行 CogVideoX-5B 模型。

CogVideoX 是一个大规模 DiT（diffusion transformer）模型，用于文本生成视频任务，主要采用了以下技术：

3D causal VAE：通过压缩视频数据到 latent space，并在时间维度上进行解码来实现高效的视频重建。

专家 Transformer：将文本 embedding 和视频 embedding 相结合，使用 3D-RoPE 作为位置编码，采用专家自适应层归一化处理两个模态的数据，以及使用 3D 全注意力机制来进行时空联合建模。

CogVideoX-5B 与 CogVideoX-2B 详细参数比较如下：

智谱 AI 开源 CogVideoX-5B 视频生成模型，RTX 3060 显卡可运行

AI在线附相关链接：

代码仓库：https://github.com/THUDM/CogVideo

模型下载：https://huggingface.co/THUDM/CogVideoX-5b

论文链接：https://arxiv.org/pdf/2408.06072

{{userData.name}}已认证

智谱 AI 开源 CogVideoX-5B 视频生成模型，RTX 3060 显卡可运行

新手必看！5 款 Flux 实用基础工作流（附资源包）

亚马逊被曝 10 月发布 Alexa AI 订阅版：月费 10 美元，梳理、汇总用户感兴趣的信息流

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等

关于LLM-as-a-judge范式，终于有综述讲明白了

ChatGPT遇到这些人名开始自闭，OpenAI回应了

平安人寿ChatBI：大模型智能化报表的深度实践

李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则