智谱 AI 开源 CogVideoX-5B 视频生成模型,RTX 3060 显卡可运行

智谱 AI 开源了 CogVideoX-5B 视频生成模型,相比此前开源的 CogVideoX-2B,官方称其视频生成质量更高,视觉效果更好。官方表示大幅度优化了模型的推理性能,推理门槛大幅降低,可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B ,在 RTX 3060 等桌面端“甜品卡”运行 CogVideoX-5B 模型。CogVideoX 是一个大规模 DiT(diffusion transformer)模型,用于文本生成视频任务,主要采用了以下技术:3D causal VAE:通过压缩视

智谱 AI 开源了 CogVideoX-5B 视频生成模型,相比此前开源的 CogVideoX-2B,官方称其视频生成质量更高,视觉效果更好。

官方表示大幅度优化了模型的推理性能,推理门槛大幅降低,可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B ,在 RTX 3060 等桌面端“甜品卡”运行 CogVideoX-5B 模型。

CogVideoX 是一个大规模 DiT(diffusion transformer)模型,用于文本生成视频任务,主要采用了以下技术:

3D causal VAE:通过压缩视频数据到 latent space,并在时间维度上进行解码来实现高效的视频重建。

专家 Transformer:将文本 embedding 和视频 embedding 相结合,使用 3D-RoPE 作为位置编码,采用专家自适应层归一化处理两个模态的数据,以及使用 3D 全注意力机制来进行时空联合建模。

CogVideoX-5B 与 CogVideoX-2B 详细参数比较如下:

智谱 AI 开源 CogVideoX-5B 视频生成模型,RTX 3060 显卡可运行

AI在线附相关链接:

代码仓库:https://github.com/THUDM/CogVideo

模型下载:https://huggingface.co/THUDM/CogVideoX-5b

论文链接:https://arxiv.org/pdf/2408.06072

给TA打赏
共{{data.count}}人
人已打赏
应用

新手必看!5 款 Flux 实用基础工作流(附资源包)

2024-8-28 8:39:01

应用

亚马逊被曝 10 月发布 Alexa AI 订阅版:月费 10 美元,梳理、汇总用户感兴趣的信息流

2024-8-28 8:57:25

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索