OpenAI被偷家,谷歌Veo 2反超Sora

视频生成领先 OpenAI 了? 今天是个好日子,至少谷歌这么想。 几个小时前,该公司一键三连,一口气发布了两款视觉生成模型和一个工具:Veo 2:视频生成模型,可使用文本或图像 prompt 生成高真实感、高质量的视频;Imagen 3:文生图模型,可更忠实地遵从提示词,实现更加丰富的细节和纹理渲染;Whisk:图生图工具,基于 Imagen 3 与 Gemini 的视觉理解和描述能力打造,能让用户更加方便地调整图像的场景、风格和物体。

视频生成领先 OpenAI 了?

今天是个好日子,至少谷歌这么想。几个小时前,该公司一键三连,一口气发布了两款视觉生成模型和一个工具:

  • Veo 2:视频生成模型,可使用文本或图像 prompt 生成高真实感、高质量的视频;

  • Imagen 3:文生图模型,可更忠实地遵从提示词,实现更加丰富的细节和纹理渲染;

  • Whisk:图生图工具,基于 Imagen 3 与 Gemini 的视觉理解和描述能力打造,能让用户更加方便地调整图像的场景、风格和物体。

其中,Veo 2 可说是直接引爆了整个社交网络。从早期用户发布的生成结果以及反馈来看,Veo 2 的生成质量明显超过了当前最佳的 Sora 等模型。一问世便是当世第一,似乎完全可以嚣张地喊一声:「还有谁?」

OpenAI被偷家,谷歌Veo 2反超Sora

                                    谷歌 CEO Sundar Pichai 介绍 Veo 2 的推文

据介绍,Veo 2 可以创建 2 分钟以上长度的 4k 分辨率视频,也能理解提示词中的相机控制指令(比如广角镜头、POV 和无人机镜头),还能重建出符合真实世界的物理交互和人脸表情。

但也必须指出,目前这只是一个理论上的优势。在谷歌的实验性视频制作工具 VideoFX 中,Veo 2 目前只提供分辨率上限为 720p、长度为 8 秒的视频生成服务。(而目前的 Sora 可以制作高达 1080p、20 秒长的视频。)

尽管如此,Veo 2 现有的表现已经足够惊艳了其表现是如此之好,以至于一心推介自家 Grok 的马斯克也跑来赞美了一句。

OpenAI被偷家,谷歌Veo 2反超Sora

为了佐证 Veo 2 确实优秀,谷歌还做了一个基于人类评估者的对比评估,简单来说就是让人类评估者看不同模型基于同一提示词生成的视频,然后判断自己更喜欢哪一个视频。他们对比了 Meta Movie Gen、可灵 1.5、Minimax 和 Sora Turbo。参与者观看了 1003 条提示词及相应视频。

在整体偏好上,Veo 2 的优势非常明显,被另一个对比模型胜过的概率不超过 33%。

OpenAI被偷家,谷歌Veo 2反超Sora

而在指令遵从度上,Veo 2 的表现依旧强势。

OpenAI被偷家,谷歌Veo 2反超Sora

令人意外的反倒是 Sora Turbo,其整体偏好和指令遵从表现是这几个模型里面最差的。Sora 要想「挽回面子」,可能还得看以后的满血版了。

Veo 2 表现惊艳

话不多说,看看 Veo 2 的表现,我们或许就能理解为什么它在大众评审中能够压倒性地战胜之前的明星视频生成模型。

首先是对物理世界的理解力大大提高。如果不说是 AI 生成的,水下的波纹、光影,狗狗潜水时的动作协调性,都让人感觉如此真实,仿佛眼前的一切都是手持相机拍出来的,简直分不出来。

OpenAI被偷家,谷歌Veo 2反超Sora

虽然仪表盘上的字不是完美,但我们可以看到,方向盘向左转的时候,整体画面也有一个左移,之后镜头向上从车窗摇到街道。

OpenAI被偷家,谷歌Veo 2反超Sora

做到这种和主画面保持强一致性的摇镜头,其实非常难,每个细节都需要精确控制,确保镜头移动时画面中的物体位置和运动协调一致。

只有提升对真实世界物理运动规律的理解,才能做到这点,而 Veo 2 在这方面表现得尤为出色。

除此之外,Veo 2 的另一个亮点就是它生成的人类表情更加真实。

拿相似的 prompt 去测试其他模型,想实现这种自然又细腻的陶醉微表情,不失真、不鬼畜,试过才知道有多难。OpenAI被偷家,谷歌Veo 2反超Sora

还有,这画面简直就像从纪录片里截取的一幕。镜头里,一个养蜂的男人在蜂群中忙碌,Veo 2 在生成这一场景时,真的是突破了不少难关。OpenAI被偷家,谷歌Veo 2反超Sora

蜜蜂群体飞行不仅要表现出自然的协调感,还得和背景、光影无缝对接,避免出现卡顿或不自然的分布。但 Veo 2 把这些复杂的细节都处理得恰到好处,蜂群飞舞的每一刻都像是活生生的,「AI 味」已经很淡了。

DeepMind 表示,虽然视频模型经常出现「幻觉」,展示不必要的细节(例如多余的手指或额外的物体),但 Veo 2 产生这些细节的频率较低,模型的输出更加逼真。OpenAI被偷家,谷歌Veo 2反超Sora当然,作为一款 SOTA 视频生成模型,光能生成拟真视频可不够。从官方以及网友分享的生成结果看,Veo 2 在生成幻想和动画内容方面的表现也同样非常出色。 OpenAI被偷家,谷歌Veo 2反超Sora                                     提示词:A meeting of a lion, a bear and a giraffe, all of them wearing suits. Photorealistic, cinematic. 来自 X @hhm OpenAI被偷家,谷歌Veo 2反超Sora

                                    提示词:a sitcom tv show about potatoes,来自谷歌研究科学家 @babaeizadeh

Veo 2 还让创作者可以轻松实现以前需要复杂后期才能完成的视觉效果。比如,它可以让这个运动的立方体稳定地切换材质,这个画面让人来做,看起来就很难,换 AI 来做,其实一点也没变简单。OpenAI被偷家,谷歌Veo 2反超Sora

Veo 2 不仅要解决实时追踪的问题,确保在物体快速移动时也能精准捕捉位置和形态,仅需 Prompt 就能置换材质。最厉害的是,它能保证在多次连续变换过程中画面始终流畅自然,不会出现抖动或错位。

Veo 2 的功能已经被加入到 Google Labs 视频生成工具 VideoFX 中,并扩大了可访问的用户数量。谷歌表示,计划明年将 Veo 2 扩展到 YouTube Shorts 和其他产品上。OpenAI被偷家,谷歌Veo 2反超Sora

                                    提示词:A broccoli wearing a leather jacket and carrot wearing a tank top having a steak dinner,来自谷歌研究科学家 @RubenEVillegas

不过 Veo 2 现在还未正式开放,需要填表排队,等待正式上线。

  • 排队链接:https://labs.google/fx/tools/video-fx

OpenAI 连开直播 12 天,虽然赚足了流量,但从开播至今干货越来越少,可谓噱头大于实质。

而之前谷歌一直被 OpenAI 狙击,这次终于迎头反击。

雪上加霜的是,OpenAI Sora 的项目负责人 Tim Brooks 也在两个月前选择了跳槽至 DeepMind。

OpenAI被偷家,谷歌Veo 2反超Sora

按照目前双方技术迭代的速度和质量来看,或许就像网友们所预测的:「谷歌明年就会把 OpenAI 甩得连尾气都吃不上了」。

OpenAI被偷家,谷歌Veo 2反超Sora

OpenAI被偷家,谷歌Veo 2反超Sora

参考内容:

https://blog.google/technology/google-labs/video-image-generation-update-december-2024/

相关资讯

剑指 Sora,谷歌推出 Veo 文生视频模型:时长超 1 分钟、最高 1080P,支持电影手法

感谢OpenAI 三个月前推出文本转视频 Sora,引发了网友、媒体以及圈内人士的广泛讨论。谷歌在今天召开的 2024 I / O 开发者大会上,也推出了对标产品-- Veo,可以生成长度超过 1 分钟,分辨率最高 1080P 的“高质量”视频,并具有多种视觉和电影风格。根据谷歌官方新闻稿,Veo 具备对自然语言有先进的理解能力,能够理解“延时摄影”、“航拍风景”等电影术语。用户可以使用文本、图像或视频提示来指导他们所需的输出,谷歌表示,这样产生的视频“更加连贯一致”,在整个镜头中人物、动物和物体的动作也更加逼真。

谷歌领跑 AI 视频生成赛道:抢先 OpenAI Sora 推出 Veo 模型,可生成 1080P 高清视频

谷歌公司昨日(12 月 4 日)发布博文,宣布在 Vertex AI 平台上,以私测预览版的形式,面向企业开放最新的生成式 AI 视频模型 Veo,助力企业内容创作流程。

谷歌反击:Project Astra正面硬刚GPT-4o、Veo对抗Sora、新版Gemini变革搜索

这就是谷歌对 OpenAI 的回应。通用的 AI,能够真正日常用的 AI,不做成这样现在都不好意思开发布会了。5 月 15 日凌晨,一年一度的「科技界春晚」Google I/O 开发者大会正式开幕。长达 110 分钟的主 Keynote 提到了几次人工智能?谷歌自己统计了一下:                              是的,每一分钟都在讲 AI。生成式 AI 的竞争,最近又达到了新的高潮,本次 I/O 大会的内容自然全面围绕人工智能展开。「一年前在这个舞台上,我们首次分享了原生多模态大模型 Gem