「在吗? 我这儿有三张图,你能攒一个视频出来吗? 」最近,在 X 平台上,国产视频模型 Vidu 玩起了在线接单。
「在吗?我这儿有三张图,你能攒一个视频出来吗?」最近,在 X 平台上,国产视频模型 Vidu 玩起了在线接单。你猜怎么着?拿到这三张图之后,这个模型还真能攒一个毫无违和感的视频,人、物、背景的交互非常自然,人物的面部特征、动态表情也没有因为大幅度的动作而变形。这项成果来自国产视频模型 Vidu,由清华系大模型公司生数科技自主研发,这也是全球最早对标 Sora 发布的视频模型。自 7 月正式上线以来,Vidu 持续进化,如今已经升级到了 1.5 版本。Vidu 这次升级在功能层面最大的特点在于「多主体一致性」的突破,能把多张参考图中的多个主体自然地融合到一个视频中。有了这项能力,马斯克穿大花袄给「电动车」代言都不用亲自飞过来;直观看,Vidu1.5 的推出大大提升了视频模型的可玩性。二是视频模型拥有记忆了,能对「上下文特征」进行关联了!三是视频模型告别 LoRA,通用架构就可以支持泛化任务了!视频模型迎来智能涌现!在视频生成中,保持「单主体一致性」就已经是一大难题,更别提说对「多主体」的控制。比如同时上传男孩、生日蛋糕、水晶背景,生成一段「男孩手里拿着蛋糕在水晶场景里」的画面。这里涉及三个主体特征,当前的视频模型无法理解这么多的特征,输出结果「大翻车」。比如海外爆火的 Runway,虽然一定程度上也在融合,但是主体关系明显错误。同样热度很高的 Luma AI,直接来了一段 PPT 播放。而 Vidu 能同时理解三个主体特征,将三者完美融合,同时严格遵循指令要求,手拿蛋糕、身处水晶里 —— 物理空间关系完美契合。这段画面,是在 Vidu 中通过上传人物角色图、道具图、环境图,一键生成。但这还只是其中一种打开方式,Vidu 还可以直接融合不同主体特征,比如将角色 A 的正面和角色 B 的反面无缝融合。小试一下,马斯克直接换上 10 号球衣替梅西上场踢球;另外也可以上传多个自定义角色,让它们在指定空间内进行交互。喜欢的二次元角色,画风差了十几年,也可以同框一起逛街: 甚至可以直接上传人物图 + 道具图,让指定人物用指定道具做出指定的动作;这个过程是不是有点眼熟?对,这个实现路径在大语言模型 LLM 中同样出现过,就是「上下文学习」(In-context Learning)。我们知道,在过去几年语言模型的突飞猛进中,「上下文学习」功不可没。LLM 的成功,就在于模型不仅仅是处理单一的文本输入信息,而是能够关联前后的文本、识别语句之间的关系,从而生成连贯且符合情境的回答或内容。简单说,就是支持的输入更灵活(多段、甚至超长文本的输入),还能做记忆管理(理解含义),上下文关联(理解上下文),最后再输出。如今 Vidu1.5 也是这样的路径。不再是仅接受单一输入,从单图输入拓展到多图的灵活输入,而且不局限于特定特征,同时能在多输入间建立关联、理解复杂的描述,并输出符合逻辑的内容。这套独属于 LLM 的独门秘籍,视频模型现在也学会了。Vidu 为什么能实现「上下文记忆」能力,或许答案就藏在技术架构上。生数科技官方放出了背后的技术架构,无独有偶,是和 LLM 相似的「设计哲学」。具体来说,可以分为三个维度:统一问题形式、统一架构、压缩即智能。这样的设计思路,概括来说就是,用一个通用化的模型来处理所有任务,避免复杂多样的专用任务模块。要知道,过往的视频模型如果想实现上述换装、人脸融合等不同任务,需要针对每一个场景进行微调。就是所谓 LoRA(Low-Rank Adaptation)方案,即在预训练模型的基础上,用特定场景、特定主体的多段视频进行微调,让模型理解该场景下的主体特征。简单理解,比如要实现人脸融合的任务,将我的脸融合到别的人物角色上,但模型在预训练过程中并没有学习过我长什么样,所以首先需要基于多段我的视频,让模型进一步训练,让模型认识我长什么样,从而能够生成。但这里的问题是,通常 LoRA 需要 20~100 段的视频,数据构造繁琐,且需要一定的训练时间,通常需要数个小时甚至更久的时间,成本为单次视频生成的成百上千倍。另外 LoRA 微调模型容易产生过拟合,即在理解主体特征的同时,也会遗忘大量原先的知识。这导致对于动态表情或肢体动作变化,很难有效控制, 生成的视频容易产生僵硬或不自然的效果,以及在复杂动作或大幅度变换时,微调模型无法很好地捕捉细节,导致主体特征不够精准。所以 LoRA 主要适用于大多数简单的任务场景,但对于高复杂的问题场景,需要更多的微调数据和更复杂的模型微调策略。但就像 LLM 用一个通用模型统一了所有文本类场景,Vidu 也是基于通用的模型来统一视觉类任务。Vidu1.5 的推出让我们仿佛看到了大语言模型「来时路」的样子。架构层面,从「预训练 + 微调」的范式,进化到无需微调就能覆盖广泛的下游任务。表现层面,通过不断扩展上下文,实现更多更复杂任务的直接生成。这无疑让我们联想到 ChatGPT 的智能涌现时刻。如 OpenAI 引领 LLM 的进步和创新,Vidu1.5 的推出则在世界范围内率先推动了多模态大模型产生智能涌现。当然多模态模型与语言模型仍然存在显著差异,在架构复杂性、数据多样性、生成效率等方面,多模态模型需要处理的问题更复杂、门槛更高。这也意味着,多模态大模型领域的「智能涌现」更难能可贵。面向 AGI 的终局看,从 ChatGPT 引爆世界开始,领域内至今已形成共识,大语言模型的训练和推理阶段均存在 Scaling Law,这揭示了通往 AGI 的可行路径。但最近,学界和业界对于未来 LLM 迭代方向的讨论不少,其中不乏「Scaling Law (扩展法则)到头了」这种悲观的声音,AGI 发展受阻。但 Vidu1.5 的诞生或许能打消一部分人的疑虑。具体来看,关于大语言模型「Scaling Law 到头了」的判断,主要源于可用于训练的高质量文本数据已经趋于枯竭。新的文本数据变得难以获得,Scaling Law 在文本领域面临瓶颈。相比之下,视觉数据的获取则更为容易。随手一拍或摄录便能得到全新的影像素材,丰富的视觉数据为 Scaling Law 提供了源源不断的「燃料」。再到现如今,Vidu1.5 的推出,又证明了视觉模型在架构上的突破。「数据」和「架构」两大难题,均得到良好解决。这表明在视觉模型中,Scaling Law 将焕发新的活力。从单输入主体的文 / 图生视频,到多输入参考信息,如今,大语言模型的独特优势已经在视觉模型中尽数体现。一个清晰可见的趋势是,未来将能以更长、更丰富的上下文作为输入,进一步提升视觉模型的表现。所以,对于视觉生成这件事来说,技术的奇点刚刚出现!另外,目前业界共识,仅依赖单一的文本输入始终是无法实现全面逼近人类的高度智能。要实现更加通用和全面的智能,必须对更多模态进行良好的理解和生成建模,尤其是视觉模态,因为它是更直观、更丰富的世界理解方式。所以 Vidu1.5 的突破,或许打通了前往 AGI 的关键一环。虽然 LLM 的增长在放缓,但视觉模型领域正迎来大爆发,这或许将从另一个维度加速 AGI 的到来!如今,Vidu 1.5 版本已正式上线,感兴趣的同学可上手试用!