智谱 AI 发布视频生成工具“清影”：30 秒快速生成，免费开放体验

应用
7月26日
编辑

汪淼

感谢智谱 AI 今日宣布，对视频生成模型进行全新升级，并正式推出新一代产品 ——CogVideoX。CogVideoX 模型目前已在智谱清言的 PC 端、移动应用端以及小程序端正式上线。所有 C 端用户均可通过智谱清言的 AI 视频生成功能「清影」（Ying），免费体验 AI 文本生成视频和图像生成视频的服务。据介绍，CogVideoX 的核心技术特点如下：针对内容连贯性问题，智谱 AI 自主研发了一套高效的三维变分自编码器结构（3D VAE）。该结构能够将原始视频数据压缩至原始大小的 2%，降低了视频扩散生成模型

感谢智谱 AI 今日宣布，对视频生成模型进行全新升级，并正式推出新一代产品 ——CogVideoX。

智谱 AI 发布视频生成工具“清影”：30 秒快速生成，免费开放体验

CogVideoX 模型目前已在智谱清言的 PC 端、移动应用端以及小程序端正式上线。所有 C 端用户均可通过智谱清言的 AI 视频生成功能「清影」（Ying），免费体验 AI 文本生成视频和图像生成视频的服务。

智谱 AI 发布视频生成工具“清影”：30 秒快速生成，免费开放体验

据介绍，CogVideoX 的核心技术特点如下：

针对内容连贯性问题，智谱 AI 自主研发了一套高效的三维变分自编码器结构（3D VAE）。该结构能够将原始视频数据压缩至原始大小的 2%，降低了视频扩散生成模型的训练成本和难度。结合 3D RoPE 位置编码模块，该技术提升了在时间维度上对帧间关系的捕捉能力，从而建立了视频中的长期依赖关系。

在可控性方面，智谱 AI 打造了一款端到端的视频理解模型，该模型能够为大量视频数据生成描述。这一创新增强了模型对文本的理解和对指令的遵循能力，确保生成的视频更加符合用户的输入需求，并能够处理超长且复杂的 prompt 指令。

模型采纳了一种将文本、时间、空间三维一体融合的 transformer 架构。该架构摒弃了传统的 cross attention 模块，设计了 Expert Block 以实现文本与视频两种不同模态空间的对齐，并通过 Full Attention 机制优化模态间的交互效果。

「清影」的主要特点如下：

快速生成：仅需 30 秒即可完成 6 秒视频的生成。

高效的指令遵循能力：即使是复杂的 prompt，清影也能准确理解并执行。

内容连贯性：生成的视频能够较好地还原物理世界中的运动过程。

画面调度灵活性：例如，镜头能够流畅地跟随画面中的三只狗狗移动。

此外，智谱大模型开放平台 bigmodel.cn 也部署了「清影」。企业和开发者可通过 API 调用式，体验并使用「清影」的文本生成视频和图像生成视频功能。

AI在线附智谱官网链接：https://chatglm.cn/video

{{userData.name}}已认证

智谱 AI 发布视频生成工具“清影”：30 秒快速生成，免费开放体验

B站AI课几秒出总结，划词就给解释，这个「AI学习搭子」真香

大模型智障检测 + 1：Strawberry 有几个 r 纷纷数不清，最新最强 Llama3.1 也傻了

AI 助力脑瘤手术：10 秒内精准识别残留肿瘤

谷歌扩大 AI 洪水预警系统覆盖范围，惠及全球 7 亿人

OpenAI 联合创始人回来了，还是总裁，将更专注重大技术挑战

谷歌 Gemini 发布苹果 iOS 版 App：集成灵动岛，支持 AI 语音聊天

AI解锁500多年的圣殿，米开朗基罗杰作，你我触手可及

OpenAI 呼吁建立“北美人工智能联盟”，好与中国竞争

全球首个：英伟达与软银试运行“AI+5G” 电信网络，号称投资 1 美元收入 5 美元

编程利器：OpenAI 升级 ChatGPT 应用，可配合 Xcode 等工具使用简化开发流程