刚刚,字节的火山引擎的发布会基本结束了。
我现在有点过于激动。
虽然发布会结束了,但是我觉得,一个颠覆行业的全新的起点,在这一刻,正式到来了。
字节正式发布了他们全新的两款 AI 视频模型:
豆包视频生成-PixelDance 模型和 Seaweed 模型。
Seaweed 模型下次我再详细来说。这次,我想说这个豆包 PixelDance 模型,因为太屌了,屌炸了,我真的是全程惊叹着看完的。
他们正式宣布这玩意的那一刻,现场掌声雷动,我隔着屏幕都感觉快特么把房顶掀翻了。
真的,如果要给这个豆包 PixelDance 模型,做一个总结,那就是三个词:
人物的复杂连续动作,多镜头组合视频,极致的运镜控制。
听着感觉有点难理解是不是?不用急,我一会详细来解释。
我先放几个 case,给大家感受一下这玩意的震撼:
真的,影视行业在之前,几乎没法用 AI,就是因为,人物表演太垃圾,还有场景和人物一致性太差,运镜说实话也不咋地。
现在,字节出手,将 AI 视频推上了全新的高度。
行业颠覆的奇点,就在今天,就在这个发布会上,正式到来了。
而我,在憋了整整 4 天后,也终于可以发出这篇文章。
对,4 天前,我就受字节邀请,提前测过了这个豆包 PixelDance 模型,当时给我震惊的无以复加,你知道,作为一个博主,测完了这么屌的东西,自然就是想第一时间分享出去,但是因为保密协议,我只能只字不提。
所以你就知道,我这 4 天,憋的有多难受。
而现在,一切都来了。我终于可以特么的说话了。
说回那三个最重要的特点:
人物的复杂连续动作,多镜头组合视频,极致的运镜控制。
一、可以做连续动作的人物表演
过往,AI 视频有一个很致命的点,就是看起来像 PPT 动画。
不管是 Sora 展示出来的视频、还是 runway、还是可灵等等,运动幅度再大,也只是镜头幅度大,从来没有人的复杂动作。
顶天了,转个身,或者快速跑个步,或者挥个手,或者拥抱一下。说实话,就单拥抱这个,都没几个 AI 视频能做出来的。
而如果让图里这个女生,摘下墨镜,站起身,然后走向雕像呢?
所有的 AI 视频,全部阵亡。
而这一次豆包 PixelDance,做到了,真的。
除了手上的表有一些些闪动,人物比例、动作、肢体、光影等等,几乎毫无瑕疵。
一个戏好看,人的动作表演,才是最重要的啊。
比如在《喜剧之王》里,在最后一幕,周星驰饰演的尹天仇,在对着柳飘飘喊出那句经典的“我养你啊”的台词之后,柳飘飘坐在离去的出租车里,哭的非常伤心,看了一会手上的钱和表,然后把他们放进包里,拿出尹天仇视为信仰的那本《演员的自我修养》,伤心的抱在胸口。
这段表演,是连续的。连续的东西,才有张力。你才能感受到,那痛彻心扉的情绪。
而现在,用 AI,生成可以做连续动作的人物表演,不再是空谈。
再看一个 case,男人喝了一口咖啡,然后放下,一个女人从背后走来。
还有,人物表情也很屌,老人笑着笑着,就哭了。
我也想哭,真的。
去年 8 月我做《流浪地球 3》预告片的时候,我就幻想过无数种关于 AI 做人物表演的可能。
仅仅一年后的今天,豆包就帮我圆了这个最大的梦。
二、多镜头组合视频
一张图+Prompt,就能生成风格、场景、人物一致的多镜头视频,这个能力,我只在 Sora 的宣传片里面看到过。
就是那个著名的一只狼对着月亮嚎叫的视频。
其实说实话,这个视频当时看,非常的震撼,但是现在看其实也还好,风格、角色和场景都太简单了,所以一致性很好保持,也没啥复杂的故事和分镜。
但就这样,现在,依然没有任何一个 AI 视频,能做到单视频多镜头,而且还能保证完美的一致性。
别跟我说 LTX studio 那种玩意,那个做做故事版还行,做正片?洗洗睡吧,别说场景了,人物保持全景、中景、特写统一都难。而且真的丑的出奇。
但是现在,豆包 PixelDance 做出来了,而且一致性简直无敌,真的。
而且,只需要一张图+Prompt 就行。
比如,这个。
Prompt:拿着镰刀的死神朝女人走近。特写女人的脸,她惊恐地尖叫。
或者,一场战斗。
Prompt:白色机器人抬起双手拿着一把步枪对着画面左侧不断射击。枪口射出一道绿色的能量光线。镜头变化成画面左侧是一个黑色的机器人,一道绿光从画面右侧快速射入,击中了它的身体,黑色机器人被击倒并爆炸。画面变了,白色机器人望向爆炸,它望向远处的爆炸,转身走出了画面。
又或者,看一个离奇的克苏鲁故事。
一张图和 Prompt,就能生成单视频多镜头,屌爆了,真的。
对于影视和广告行业来说,几分钟能瞬间调度后面两三个镜头的分镜,直接出成片。
普通人的使用门槛,也巨幅降低,人人都是导演,人人都可以做故事的时代。
如今,真的到来了。
三、极致的运镜控制
豆包 PixelDance 模型的运镜,是我见过最离谱,最牛逼的。
现在的 AI 视频的运镜控制,还基本集中在摄像机+运动笔刷两个功能的组合拳上,但是说实话,上限真的有限,很多大运镜和变焦,根本做不出来。
而豆包 PixelDance,效果真的就特娘的离谱。
什么鸟瞰缩放上移旋转这种基操我就不说了,关键是,直接一句话,各种 360 度围绕主体环绕、前后景变焦、摇摄、目标跟随、升降镜头什么玩意都行。
效果出奇的好,我第一次见到,在 AI 视频,运镜能这么牛逼,这么炫酷的。
直接看 case。
Prompt:女人微笑着低下头,镜头拉远,一个白人男人注视着这个女人。
变焦的极度自然顺滑,无敌,太无敌了。
还有这个,360 度大幅度环绕运镜。
Prompt:黑白风格,镜头环绕着戴墨镜的女人拍摄,从她侧面移动到正面,最后聚焦于女人的面部特写。
这是一张图,然后一句 Prompt 干出来的,你敢信?这动作幅度,这稳定性,比特么建模出来的还离谱,我真的服了。
你这让摄影们还怎么玩,疯了啊…
写在最后
Sora 一个巨型期货,从 2.16 号到如今,迟迟不见任何踪影。
而后,6.6 号,可灵默不作声,正式上线,代表了中国 Sora 的输出。
而今天,9.24 号,字节再把 AI 视频,推向一个全新的高度,是一个在 Sora 的宣传片里,都看不到的高度。
至此,中国不需要 Sora,豆包模型就是天。
豆包 PixelDance 也不需要什么中国版 Sora 的外号,豆包 PixelDance 就是豆包 PixelDance,他就是现在 AI 视频的天。
也至此,AI 视频不再是玩具,而是真正的,可以进入到影视、广告、动漫工作流中,带来一些全新的想象。
这一枪,由我们打响。
今天这个豆包 PixelDance 模型,就会优先对企业开启邀测,过几天上线火山方舟,至于啥时候上线即梦向 C 端用户全员开放,可能还得等一段时间,毕竟太新,他们说还想再优化优化模型能力,稳定了以后,就直接上线即梦,给全员开放了。
真的,也从来没有什么奇迹,一切都是沉淀多年的积累,一切都是如约而至。
今天,我也可以喊出那句台词:
字节,No.1!