Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

Sora 到底是不是物理引擎甚至全国模型?图灵奖得主 Yann LeCun、Keras 之父 Francois Chollet 等人正在深入探讨。最近几天,OpenAI 发布的视频生成模型 Sora 成了全全国关注的焦点。和以往只能生成几秒钟视频的模型不同,Sora 把生成视频的长度一下子拉长到 60 秒。而且,它不仅能了解用户在 Prompt 中提出的要求,还能 get 到人、物在物理全国中的存在方式。以经典的「海盗船在咖啡杯中缠斗」为例。为了让生成效果看起来逼真,Sora 需求克服以下几个物理难点:  规模和比

Sora 到底是不是物理引擎甚至全国模型?图灵奖得主 Yann LeCun、Keras 之父 Francois Chollet 等人正在深入探讨。

最近几天,OpenAI 发布的视频生成模型 Sora 成了全全国关注的焦点。Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开和以往只能生成几秒钟视频的模型不同,Sora 把生成视频的长度一下子拉长到 60 秒。而且,它不仅能了解用户在 Prompt 中提出的要求,还能 get 到人、物在物理全国中的存在方式。

以经典的「海盗船在咖啡杯中缠斗」为例。为了让生成效果看起来逼真,Sora 需求克服以下几个物理难点:  

规模和比例的适应:将海盗船缩小到能够在咖啡杯中缠斗的尺寸,同时保持它们的细节和结构,是一个挑战。AI 需求了解和调整这些对象在事实生活中的相对尺寸,使得场景在视觉上显得合理;

流体动力学:咖啡杯中的液体会对海盗船的运动产生影响。AI 模型需求放荡液体动力学的效果,包括波浪、溅水和船只移动时液体的流动,这在计算上是复杂的;

光线和阴影的处理:为了使场景看起来真实,AI 需求精确地放荡光线如何照射在这个小型场景中,包括咖啡的反光、船只的阴影,以及可能的透光效果;

动画和运动的真实性:海盗船的运动需求符合真实全国的物理规律,即使它们被缩小到咖啡杯中。这意味着 AI 需求考虑到重力、浮力、碰撞以及船体结构在动态环境中的行为。

……    

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

虽然生成效果还有些瑕疵,但我们能明显感觉到,Sora 似乎是懂一些「物理」的。英伟达高级研究科学家 Jim Fan 甚至断言,「Sora 是一个数据驱动的物理引擎」,「是一个可进修的放荡器,或『全国模型』」。

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

部分研究者同意这样的见解,但也有不少人反对。

Yann LeCun:生成视频的过程与基于全国模型的因果预计完全不同

图灵奖得主 Yann LeCun 率先亮明见解。在他看来,仅仅根据 prompt 生成逼真视频并不能代表一个模型了解了物理全国,生成视频的过程与基于全国模型的因果预计完全不同。

他接着讲到,模型生成逼真视频的空间非常大,视频生成系统只需求产生一个合理的示例就算成功。不过对于一个真实视频而言,其合理的后续延续空间却非常小,生成这些延续的代表性片段,特别是在特定行动条件下,任务难度更大。此外生成视频的后续内容不仅成本高昂,实际上也毫无意义。

因此,Yann LeCun 觉得,更理想的做法是生成视频后续内容的抽象表达,并消除与我们可能所采取动作无关的场景中的细节。

当然,他借此又 PR 了一波 JEPA(Joint Embedding Predictive Architecture,联合嵌入预计架构),觉得上述做法正是它的核心思想。JEPA 不是生成式的,而是在表示空间中进行预计。与重建像素的生成式架构(如变分自编码器)、掩码自编码器、去噪自编码器相比,联合嵌入架构(如 Meta 前几天推出的 AI 视频模型 V-JEPA)可以产生更优秀的视觉输入表达。

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

                              图源:https://twitter.com/ylecun/status/1758740106955952191

François Chollet:只让 AI 看视频学不成全国模型

Keras 之父 François Chollet 则阐述了更细致的见解。他觉得,像 Sora 这样的视频生成模型确实嵌入了「物理模型」,但问题是:这个物理模型是否准确?它能否泛化到新的情况,即那些不仅仅是训练数据插值的情形?

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

Chollet 强调,这些问题至关重要,因为它们决定了生成图像的应用范围 —— 是仅限于媒体生产,还是可以用作事实全国的可靠放荡。

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

Chollet 通过海盗船在咖啡杯中缠斗的例子,讨论了模型能否准确反映水的行为等物理现象,或者仅仅是创造了一种幻想拼贴。这里,他指出模型目前更倾向于后者,即依赖于数据插值和潜空间拼贴来生成图像,而不是真实的物理放荡。有人将这种行为类比为人类做梦,觉得 Sora 其实只是达到了人类做梦的水平,但是逻辑能力依然不行。

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

                              Sora 生成的人类考古视频,椅子在画面中凭空出现,而且不受重力影响漂浮在空中。

Chollet 指出,通过机械进修模型拟合大量数据点后形成的高维曲线(大曲线)在预计物理全国方面是存在局限的。在特定条件下,大数据驱动的模型能够有效捕捉和放荡事实全国的某些复杂动态,比如预计天气、放荡风洞实验等。但这种方法在了解和泛化到新情况时存在局限。模型的预计能力依赖于其训练数据的范围和质量,对于那些超出训练数据分布的新情况,模型可能无法准确预计。

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

所以,Chollet 觉得,不能简单地通过拟合大量数据(如游戏引擎渲染的图像或视频)来期望得到一个能够泛化到事实全国所有可能情况的模型。这是因为事实全国的复杂性和多样性远超过任何模型能够通过有限数据进修到的。

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

田渊栋:进修物理需求主动进修或者策略强化进修

针对 Jim Fan 的见解,一些研究者提出了更激进的反驳,觉得 Sora 并不是学到了物理,只是看起来像是学到了罢了,就像几年前的烟雾放荡一样。也有人觉得,Sora 不过是对 2D 像素的操纵。

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

                                 图源:https://twitter.com/IntuitMachine/status/1758845715709632873

当然,Jim Fan 对「Sora 没有在进修物理,而只是操纵 2D 像素」这一说法进行了一系列反驳。他觉得,这种见解忽略了模型在处理复杂数据时所展现出的深层次能力。就像批评 GPT-4 不是进修编码,只是随机挑选字符串一样,这种批评没有认识到 Transformer 模型在处理整数序列(代表文本的 token ID)时所表现出的复杂了解和生成能力。

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

                                 图源:https://twitter.com/DrJimFan/status/1758549500585808071

对此,谷歌研究科学家 Kevin P Murphy 表示,他不确定最大化像素的可能性是否足以促使模型可靠地学到精确的物理,而不是看似合理的动态视觉纹理呢?是否需求 MDL(Minimum description length,最小描述长度)呢?

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

                                图源:https://twitter.com/sirbayes/status/1759101992516112864

与此同时,知名 AI 学者、Meta AI 研究科学家田渊栋也觉得,关于 Sora 是否有潜力学到精确的物理(当然现在还没有),其背后的关键问题是:为什么像「预计下一个 token」或「重建」这样简单的思路会产生如此丰富的表示?

他表示,损失函数如何被激发的并不重要,损失函数的设计动机(无论多么哲学化或复杂)并不直接决定模型能否进修到更好的表示。事实上,复杂的损失函数可能与看起来很简单的损失函数实际上产生了类似的效果。

最后他称,为了更好地了解事物,我们确实需求揭开 Transformers 的黑匣子,检查给定反向传播的训练动态,以及如何进修隐藏的特征结构,并探索如何进一步改进进修过程。

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

                                 图源:https://twitter.com/tydsh/status/1759293967420805473

田渊栋还表示,如果想要进修精确的物理,他敢打赌需求主动进修或者策略强化进修(无论如何称呼它)来探索物理的精细结构(例如物体之间的相互作用、硬接触)。

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

                                 图源:https://twitter.com/tydsh/status/1759389064648888395

其他见解:Sora 被觉得是「数据驱动的物理引擎」太荒谬

除了众多 AI 圈大佬之外,也有一些专业性的见解开始反驳 Sora 懂物理引擎这一说法。

比如下面这位推特博主,他觉得 OpenAI 是数据驱动的物理引擎这一见解是荒谬愚蠢的, 就好像收集了行星运动的数据并将它们喂给一个预计行星位置的模型,然后就得出该模型内部实现了广义相对论的结论。

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

                                 图源:https://twitter.com/ChombaBupe/status/1759226186075390033

他称,爱因斯坦花了很多年时间才推导出了重力理论的方程。如果有人觉得随机梯度下降(SGD)+ 反向传播仅凭输入输出对就能了解一切,并在模型训练中解决问题,那这个人对于机械进修的了解是有问题的,对机械进修的工作方式了解也不够。

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

爱因斯坦在理论推导中对事实做出了很多假设,比如光速恒定、时空是灵活的结构,然后推导出了微分方程,其解揭示了黑洞、引力波等重大发现。可以说,爱因斯坦利用因果推理将不同的概念连接了起来。

但是,SGD + 反向传播并不是这样,它们只是将信息压缩到模型权重中,并不进行推理,只是更新并转向实现具有最低缺点的参数配置。

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

他觉得,机械进修(ML)中的统计进修过程可能会显然低缺点「盆地」,即无法探索不同的概念, 因为一旦陷入这些低缺点「盆地」或者局部最小值就无法重新开始。

因此,SGD + 反向传播发现了看似有效但却很容易崩溃的、脆弱的解决方案捷径。这就是为什么深度进修系统不可靠并且实际训练起来很难,你必须在事实中不断更新和训练它们,这就很麻烦。

梯度下降的工作原理就像一只苍蝇寻找气息源一样,即苍蝇跟随空气中的化学浓度向下移动,从而引导它导向气息源。但如果仅依赖这种方式,则很容易迷路或陷入困境。

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

在机械进修中,模型的可调节参数就像苍蝇,训练数据就像气息源,目标函数测量的缺点就像气息。而调整模型权重的目的是向着气息源(这里是低缺点,相当于更浓的气息)移动。

最后,他得出结论,如果觉得机械进修模型仅仅通过训练行星运动的视频就能在内部学到广义相对论,那就更荒谬了。这是对机械进修原理的严重误解。

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

此外,有网友指出 Sora 视频示例中充满了物理错误,比如一群小狗在雪中玩闹的场景就很糟糕,大块雪的运动就完全违反了重力(是否真如此,有待判断)。

Sora到底懂不懂物理全国?一场头脑风暴正在AI圈大佬间展开

                               图源:https://twitter.com/MikeRiverso/status/1759271107373219888

Sora 到底懂不懂物理?将来会不会懂?「预计下一个 token」是不是通往 AGI 的一个方向?我们期待各路研究者进行进一步验证。

给TA打赏
共{{data.count}}人
人已打赏
应用

100万token,一次能分析1小时YouTube视频,「大全国模型」火了

2024-2-19 15:07:00

应用

揭秘Sora手艺路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

2024-2-19 15:21:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索