腾讯出手了!开源最大AI视频模型,130亿参数,性能媲美闭源,击败Runway Gen-3、Luma 1.6

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)AI视频领域持续不断有新玩家入局! 12月3日,腾讯出手了,不仅在元宝APP里上线AI视频功能,还直接开源了混元视频模型! 图片(打开元宝APP,若没有找到入口的话,可以检查是否更新到了最新版本,目前可能会有排队时间。

编辑 | 伊风

出品 | 51CTO技术栈(微信号:blog51cto)

AI视频领域持续不断有新玩家入局!

12月3日,腾讯出手了,不仅在元宝APP里上线AI视频功能,还直接开源了混元视频模型!

腾讯出手了!开源最大AI视频模型,130亿参数,性能媲美闭源,击败Runway Gen-3、Luma 1.6图片

(打开元宝APP,若没有找到入口的话,可以检查是否更新到了最新版本,目前可能会有排队时间。)

腾讯一来就干了票大的:直接开源了AI视频里最大的模型——130 亿参数!

开源地址:https://github.com/Tencent/HunyuanVideo

混元团队对HunyuanVideo的性能也很有信心,“其视频生成性能可与领先的闭源模型媲美,甚至在某些方面更胜一筹”。

这源于背后能打的战绩,混元一挑5个闭源模型,排位第一!(注:GEN-3来自Runway 公司;Luma 1.6来自 Luma AI,CNTop系列来自系列腾讯旗下的映技派)

腾讯出手了!开源最大AI视频模型,130亿参数,性能媲美闭源,击败Runway Gen-3、Luma 1.6图片

AI视频生成的文本对齐、动作质量和视觉质量没有统一的“题库”,需要人的判断。

我们先来看看腾讯自己的demo。

腾讯出手了!开源最大AI视频模型,130亿参数,性能媲美闭源,击败Runway Gen-3、Luma 1.6

然后小编又用Sora经典的Prompt测试了一下,大家来看看效果如何:

腾讯出手了!开源最大AI视频模型,130亿参数,性能媲美闭源,击败Runway Gen-3、Luma 1.6

电影预告片,讲述了一位30岁的太空人的冒险故事。他戴着一顶红色羊毛针织摩托车头盔,背景是蓝天和盐碱沙漠。影片采用电影化风格,使用35毫米胶片拍摄,色彩鲜艳。

腾讯出手了!开源最大AI视频模型,130亿参数,性能媲美闭源,击败Runway Gen-3、Luma 1.6

一段超真实的特写视频,展示了两艘海盗船在一杯咖啡中激烈交战,咖啡的液面如同海洋,船只在其中航行,波涛汹涌,炮火四射。

看完了视频生成效果,我们来看看HunyuanVideo的4个技术层面的特点!

1.统一图像和视频生成架构

HunyuanVideo 采用的也是 Transformer 设计,使用了全注意力机制来实现统一的图像和视频生成。

具体而言,混元采用了“从双流到单流”的混合模型设计进行视频生成。在双流阶段,视频和文本标记通过多个 Transformer 块独立处理,使每种模态能够学习其适当的调制机制,而不相互干扰。在单流阶段,我们将视频和文本标记连接起来,并将它们输入到后续的 Transformer 块,以有效地融合多模态信息。

这一设计捕捉了视觉和语义信息之间的复杂交互,增强了整体模型性能。

2.MLLM 文本编码器

不同于文本到视频模型通常使用预训练的 CLIP 和 T5-XXL 作为文本编码器(其中 CLIP 使用 Transformer 编码器,而 T5 使用编码器-解码器结构。)

混元采用了预训练的多模态大型语言模型(MLLM)。

根据他们的技术报告,采用解码器-only 结构作为文本编码器,有以下优点:

(i) 与 T5 相比,经过视觉指令微调后的 MLLM 在特征空间中具有更好的图像-文本对齐性,从而缓解了扩散模型中指令跟随的难度;(ii) 与 CLIP 相比,MLLM 在图像细节描述和复杂推理上表现出了更强的能力;(iii) MLLM 可以通过跟随系统指令来作为零样本学习者,帮助文本特征更好地关注关键信息。此外,MLLM 基于因果注意力,而 T5-XXL 使用的是双向注意力,后者为扩散模型提供了更好的文本指导。因此,我们引入了额外的双向标记细化器来增强文本特征。

3.3D VAE

HunyuanVideo 使用 CausalConv3D 训练 3D VAE,将像素空间的视频和图像压缩到紧凑的潜在空间中。

HunyuanVideo设置了视频长度、空间和通道的压缩比分别为 4、8 和 16。这可以显著减少后续扩散 Transformer 模型所需的标记数量,使我们能够以原始分辨率和帧率训练视频。

4.提示重写

为了应对用户提供的提示在语言风格和长度上的差异,团队对 Hunyuan-Large 模型进行了微调,作为我们的提示重写模型,将原始用户提示转换为模型偏好的提示。

混元提供了两种重写模式:普通模式和大师模式,可以通过不同的提示进行调用。普通模式旨在增强视频生成模型对用户意图的理解,促进更准确地解释用户提供的指令。大师模式则增强了构图、照明和镜头运动等方面的描述,更倾向于生成具有更高视觉质量的视频。然而,这种侧重点有时可能导致某些语义细节的丧失。

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

给TA打赏
共{{data.count}}人
人已打赏
理论

惊掉下巴!被字节起诉800万实习生,拿下NeurIPS 2024最佳论文

2024-12-4 13:30:00

理论

一次推理,实现六大3D点云分割任务!华科发布大一统算法UniSeg3D,性能新SOTA

2024-12-4 14:00:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索