视频生成模型评测权威榜单VBench,突遭“屠榜”。
这个突然杀出来的模型,就是中国电信人工智能研究院(TeleAI)刚刚发布的视频大模型(VBench上的代号为TeleAI-VAST)。
而且16项子指标有9项都是第一,大幅领先第二名。
其中更是有5项得分超过99%,并在物体分类和人体动作两项拿了满分100%。
来看一段样片:
这段短片中,四位女主角为寻找宝石,分别踏上了各自的冒险之旅。
具体细节不展开太多,但关键之处在于,每个人物在各自的分镜中,形象都和开头的合影保持了一致。
要知道对于视频生成来说,保持单个人物的前后一致就已经不是一件容易的事,TeleAI视频生成大模型却一下处理了四个。
人物动作精准控制,还有音画同步
除了开头三分钟的宣传片,TeleAI展示了另外几段作品。
第一段视频中,女主角先后出现在公交车、马路、酒吧吧台和座位四个不同的场景。
在这四个场景中,人物的外貌、发型、衣着全都保持了一致,画面整体的色调风格也很统一。
这说明,TeleAI视频生成大模型已经实现了不同的场景变化下主体的时空一致性。
接下来的这段画面里,两只猴王展开了一场近距离对战,期间的人物动作、镜头跟随,都已经呈现出了电影级的水准。
如果细节再继续打磨优化,拿来拍电影指日可待。
人物特征、时空一致性和动作精准性都有了,还能再做些什么呢?
目前的视频生成模型大多生成的都是默片,这次TeleAI把声音也加进来了。
先看视频:
从视频中可以看到,TeleAI视频生成大模型生成的声音,不是单纯地来上一段音乐那么简单。
仔细听会发现,舰船的鸣笛声、飞机起飞的轰鸣声、潜水艇的水声,以及最后火箭冲出水面的声音,都与画面中看到的内容做到了同步。
也就是说,TeleAI视频生成大模型作品中体现的一致性,已经跨越模态了。
独创两阶段生成架构
不仅效果和成绩优秀,TeleAI视频生成大模型的技术架构也十分独特。
它没有采用传统的路径,而是全自研了一个“二阶段视频生成技术”——VAST(Video As Storyboard from Text)。
TeleAI团队没有选择一步到位,而是将视频的生成分解成了两个过程。
在第一阶段,采用多模态大型模型根据文本输入生成中间素材,包括姿势、分割图和深度信息。
TeleAI团队把这些中间表示称作“故事板”,是模型能够体现场景语义和结构本质的关键。
第二阶段,才是真正的视频生成。
利用基于DiT架构的扩散模型,TeleAI以这些表示为条件,结合目标对象的文本描述和外观信息,生成最终的视频。
这种分段式的方式,使得生成视频时能够精确控制主体的位置、运动和视觉外观。
而且,TeleAI视频生成大模型不仅能在模型上分“阶段”,还可以把视频按场景分成“片段”。
当创作者想要生成一段长视频时,视频生成工具可以先设计具体的分镜头,开头3分钟的视频就是用这种方法创作出来的。
针对每一个分镜,生成具有一致性的生成中间素材,这些中间素材不仅作用于模型内部,对创作者也是可见的,甚至还能进行调整修改。
因为对片段进行了划分,所以,只要在每个片段中都能保持人物一致性,可以生成的视频长度将是无限长。
中国电信介绍,本次发布的视频生成大模型将于明年开启公测,可以期待一波新鲜的AI大片了。
各种模态全都有,还要做智能体
此次亮相的视频生成大模型,是TeleAI整个大模型布局中的一个环节。
此前,TeleAI已经自主了研发覆盖语义、语音、视觉、多模态的“星辰”大模型能力体系。
星辰大模型在央企中唯一开源,还完成首个全国产化万卡万参大模型训练,并打造业界首个支持40种方言自由混说的语音识别大模型。
基础模型之外,TeleAI还面向工业、教育等领域推出50多个场景大模型,并构建了“星海”数据智能中台,形成了9万亿Tokens高质量数据集。
在使用方式上也另辟蹊径,甚至推出了发短信和大模型对话的功能。
除了模态、场景、数据和使用方式,TeleAI也全新推出了大模型智能体平台,与视频生成大模型一同登上TeleAI开发者大会。