OpenAI被偷家，谷歌Veo 2反超Sora

视频生成领先 OpenAI 了？今天是个好日子，至少谷歌这么想。几个小时前，该公司一键三连，一口气发布了两款视觉生成模型和一个工具：Veo 2：视频生成模型，可使用文本或图像 prompt 生成高真实感、高质量的视频；Imagen 3：文生图模型，可更忠实地遵从提示词，实现更加丰富的细节和纹理渲染；Whisk：图生图工具，基于 Imagen 3 与 Gemini 的视觉理解和描述能力打造，能让用户更加方便地调整图像的场景、风格和物体。

视频生成领先 OpenAI 了？

今天是个好日子，至少谷歌这么想。几个小时前，该公司一键三连，一口气发布了两款视觉生成模型和一个工具：

Veo 2：视频生成模型，可使用文本或图像 prompt 生成高真实感、高质量的视频；
Imagen 3：文生图模型，可更忠实地遵从提示词，实现更加丰富的细节和纹理渲染；
Whisk：图生图工具，基于 Imagen 3 与 Gemini 的视觉理解和描述能力打造，能让用户更加方便地调整图像的场景、风格和物体。

其中，Veo 2 可说是直接引爆了整个社交网络。从早期用户发布的生成结果以及反馈来看，Veo 2 的生成质量明显超过了当前最佳的 Sora 等模型。一问世便是当世第一，似乎完全可以嚣张地喊一声：「还有谁？」

OpenAI被偷家，谷歌Veo 2反超Sora

谷歌 CEO Sundar Pichai 介绍 Veo 2 的推文

据介绍，Veo 2 可以创建 2 分钟以上长度的 4k 分辨率视频，也能理解提示词中的相机控制指令（比如广角镜头、POV 和无人机镜头），还能重建出符合真实世界的物理交互和人脸表情。

但也必须指出，目前这只是一个理论上的优势。在谷歌的实验性视频制作工具 VideoFX 中，Veo 2 目前只提供分辨率上限为 720p、长度为 8 秒的视频生成服务。（而目前的 Sora 可以制作高达 1080p、20 秒长的视频。）

尽管如此，Veo 2 现有的表现已经足够惊艳了其表现是如此之好，以至于一心推介自家 Grok 的马斯克也跑来赞美了一句。

OpenAI被偷家，谷歌Veo 2反超Sora

为了佐证 Veo 2 确实优秀，谷歌还做了一个基于人类评估者的对比评估，简单来说就是让人类评估者看不同模型基于同一提示词生成的视频，然后判断自己更喜欢哪一个视频。他们对比了 Meta Movie Gen、可灵 1.5、Minimax 和 Sora Turbo。参与者观看了 1003 条提示词及相应视频。

在整体偏好上，Veo 2 的优势非常明显，被另一个对比模型胜过的概率不超过 33%。

OpenAI被偷家，谷歌Veo 2反超Sora

而在指令遵从度上，Veo 2 的表现依旧强势。

OpenAI被偷家，谷歌Veo 2反超Sora

令人意外的反倒是 Sora Turbo，其整体偏好和指令遵从表现是这几个模型里面最差的。Sora 要想「挽回面子」，可能还得看以后的满血版了。

Veo 2 表现惊艳

话不多说，看看 Veo 2 的表现，我们或许就能理解为什么它在大众评审中能够压倒性地战胜之前的明星视频生成模型。

首先是对物理世界的理解力大大提高。如果不说是 AI 生成的，水下的波纹、光影，狗狗潜水时的动作协调性，都让人感觉如此真实，仿佛眼前的一切都是手持相机拍出来的，简直分不出来。

OpenAI被偷家，谷歌Veo 2反超Sora

虽然仪表盘上的字不是完美，但我们可以看到，方向盘向左转的时候，整体画面也有一个左移，之后镜头向上从车窗摇到街道。

OpenAI被偷家，谷歌Veo 2反超Sora

做到这种和主画面保持强一致性的摇镜头，其实非常难，每个细节都需要精确控制，确保镜头移动时画面中的物体位置和运动协调一致。

只有提升对真实世界物理运动规律的理解，才能做到这点，而 Veo 2 在这方面表现得尤为出色。

除此之外，Veo 2 的另一个亮点就是它生成的人类表情更加真实。

拿相似的 prompt 去测试其他模型，想实现这种自然又细腻的陶醉微表情，不失真、不鬼畜，试过才知道有多难。 OpenAI被偷家，谷歌Veo 2反超Sora

还有，这画面简直就像从纪录片里截取的一幕。镜头里，一个养蜂的男人在蜂群中忙碌，Veo 2 在生成这一场景时，真的是突破了不少难关。 OpenAI被偷家，谷歌Veo 2反超Sora

蜜蜂群体飞行不仅要表现出自然的协调感，还得和背景、光影无缝对接，避免出现卡顿或不自然的分布。但 Veo 2 把这些复杂的细节都处理得恰到好处，蜂群飞舞的每一刻都像是活生生的，「AI 味」已经很淡了。

DeepMind 表示，虽然视频模型经常出现「幻觉」，展示不必要的细节（例如多余的手指或额外的物体），但 Veo 2 产生这些细节的频率较低，模型的输出更加逼真。 OpenAI被偷家，谷歌Veo 2反超Sora 当然，作为一款 SOTA 视频生成模型，光能生成拟真视频可不够。从官方以及网友分享的生成结果看，Veo 2 在生成幻想和动画内容方面的表现也同样非常出色。 提示词：A meeting of a lion, a bear and a giraffe, all of them wearing suits. Photorealistic, cinematic. 来自 X @hhm OpenAI被偷家，谷歌Veo 2反超Sora