智谱 AI 发布视频生成工具“清影”:30 秒快速生成,免费开放体验

感谢智谱 AI 今日宣布,对视频生成模型进行全新升级,并正式推出新一代产品 ——CogVideoX。CogVideoX 模型目前已在智谱清言的 PC 端、移动应用端以及小程序端正式上线。所有 C 端用户均可通过智谱清言的 AI 视频生成功能「清影」(Ying),免费体验 AI 文本生成视频和图像生成视频的服务。据介绍,CogVideoX 的核心技术特点如下:针对内容连贯性问题,智谱 AI 自主研发了一套高效的三维变分自编码器结构(3D VAE)。该结构能够将原始视频数据压缩至原始大小的 2%,降低了视频扩散生成模型
感谢智谱 AI 今日宣布,对视频生成模型进行全新升级,并正式推出新一代产品 ——CogVideoX

图片

CogVideoX 模型目前已在智谱清言的 PC 端、移动应用端以及小程序端正式上线。所有 C 端用户均可通过智谱清言的 AI 视频生成功能「清影」(Ying),免费体验 AI 文本生成视频和图像生成视频的服务。

图片

据介绍,CogVideoX 的核心技术特点如下:

针对内容连贯性问题,智谱 AI 自主研发了一套高效的三维变分自编码器结构(3D VAE)。该结构能够将原始视频数据压缩至原始大小的 2%,降低了视频扩散生成模型的训练成本和难度。结合 3D RoPE 位置编码模块,该技术提升了在时间维度上对帧间关系的捕捉能力,从而建立了视频中的长期依赖关系。

在可控性方面,智谱 AI 打造了一款端到端的视频理解模型,该模型能够为大量视频数据生成描述。这一创新增强了模型对文本的理解和对指令的遵循能力,确保生成的视频更加符合用户的输入需求,并能够处理超长且复杂的 prompt 指令。

模型采纳了一种将文本、时间、空间三维一体融合的 transformer 架构。该架构摒弃了传统的 cross attention 模块,设计了 Expert Block 以实现文本与视频两种不同模态空间的对齐,并通过 Full Attention 机制优化模态间的交互效果。

「清影」的主要特点如下:

快速生成:仅需 30 秒即可完成 6 秒视频的生成

高效的指令遵循能力:即使是复杂的 prompt,清影也能准确理解并执行。

内容连贯性:生成的视频能够较好地还原物理世界中的运动过程。

画面调度灵活性:例如,镜头能够流畅地跟随画面中的三只狗狗移动。

此外,智谱大模型开放平台 bigmodel.cn 也部署了「清影」。企业和开发者可通过 API 调用式,体验并使用「清影」的文本生成视频和图像生成视频功能。

AI在线附智谱官网链接:https://chatglm.cn/video

相关资讯

在海外,Sora 正在被可灵替代

从没想过中国第一个让国外网友求着开放会员订阅通道的AI应用居然是出自快手。 在经历一个多月的狂奔吸引上百万人排队内测之后快手可灵终于全面开放,最有意思的是直到开放测试之前还有网友表示自己没排进去内测。 狗BEE 提示词:长着小狗身体的蜜蜂在花丛中飞而在内测过程中,中外网友则经历了身份互换,外网用户也体验了一把之前国内网友求手机号注册chatgpt的辛酸。

智谱 AI CEO 张鹏谈文生视频:当前可用来做影视辅助工作,若要改变电影制作仍需距离

据新浪科技报道,智谱 CEO 张鹏今日接受采访,谈到了基于生成式 AI 的文生视频技术对影视行业的冲击等话题。他表示,从 OpenAI 的 Sora 出现之后,有关话题就一直在讨论。在国外,这件事已经引起很大影响,包括好莱坞罢工等。张鹏透露,自己有一次在北京电影学院与教师一同讨论此事,众人得出了一致的看法:从技术发展角度来看,大家都认为 AI 的发展“是很好的事情”,也是“很重要的方向”,对影视行业的变化有积极意义。张鹏表示,从目前来看,“至少也觉得如果把这项技术用在直接面向最终观众的生产过程当中,可能还是不太够。

智谱 AI 开源视频理解模型 CogVLM2-Video,可回答时间相关问题

感谢智谱 AI 宣布,训练了一种新的视频理解模型 CogVLM2-Video,并将其开源。据介绍,当前大多数的视频理解模型使用帧平均和视频标记压缩方法,导致时间信息的丢失,无法准确回答与时间相关的问题。一些专注于时间问答数据集的模型过于局限于特定格式和适用领域,使得模型失去了更广泛的问答能力。▲ 官方效果演示智谱 AI 提出了一种基于视觉模型的自动时间定位数据构建方法,生成了 3 万条与时间相关的视频问答数据。基于这个新数据集和现有的开放领域问答数据,引入了多帧视频图像和时间戳作为编码器输入,训练出 CogVLM2