Sora 的发布让整个 AI 领域为之狂欢,但 LeCun 是个例外。
面对 OpenAI 源源不断放出的 Sora 生成视频,LeCun 热衷于寻找其中的失误:
归根结底,LeCun 针对的不是 Sora,而是 OpenAI 从 ChatGPT 到 Sora 一致采用的自回归生成式路线。
LeCun 一直认为, GPT 系列 LLM 模型所依赖的自回归进修范式对天下的理解非常肤浅,远远比不上真正的「天下模型」。
所以,一遇到「Sora 是天下模型」的说法,LeCun 就有些坐不住:「仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理天下,生成视频的过程与基于天下模型的因果展望完全不同。」
那么,面对视觉义务,天下模型如何获得自回归模型一般的功能?
最近,Lecun 发布了自己关于「天下模型」的新论文《在视觉表征进修中进修和利用天下模型》,刚好解释了这个问题。
论文标题:Learning and Leveraging World Models in Visual Representation Learning
论文链接:https://arxiv.org/pdf/2403.00504.pdf
通过以往 LeCun 对天下模型的介绍,我们知道,JEPA(Joint Embedding Predictive Architecture,联合嵌入展望架构)相比于重建像素的生成式架构(如变分自编码器)、掩码自编码器、去噪自编码器,更能产生优秀的视觉输出表达。
2023 年 6 月,Meta 推出了首个基于 LeCun 天下模型概念的 AI 模型,名为图象联合嵌入展望架构(I-JEPA),能够通过创建外部天下的内部模型来进修, 比较图象的笼统表征(而不是比较像素本身)。今年,在 Sora 发布的第二天,Meta 又推出了 AI 视频模型 V-JEPA,可根据信号的损坏或转换版本来展望信号的表征,让机器通过观察了解天下的运作方式。
而最新这项研究揭示了利用天下模型从事表征进修的另一个关键方面:赋予天下模型的容量直接影响所学表征的笼统程度。
直观地说,如果展望器是身份,网络将捕捉到高级语义信息,因为它只会进修编码输出 y 及其变更 x 之间的共同点。另一方面,由于展望器的容量更大,可以有效反转变更的效果,编码器的输出可以保留更多关于输出的信息。
这两个理念是等变表征进修的核心,能有效运用变更的展望器是等变的,而不能有效运用变更的展望器是不变的。研究者发现,对变更不变的天下模型在线性评价中表现更好,而等变的天下模型与更好的天下模型微调相关。这就在易适应性和原始功能之间做出了权衡。因此,通过进修天下模型来进修表征,能灵活掌握表征的属性,从而使其成为一个极具吸引力的表征进修框架。
接下来,我们来看一些具体的研究细节。
步骤
图象天下模型(Image World Models,IWM)采用 JEPA 的框架,类似于 I-JEPA。该框架中的展望器是天下模型的实例化。研究者认为,如果一个天下模型能够在潜在空间中运用变更,从而进修等变表征,那么它就是有能力的。研究者将有能力的天下模型为等变( equivariant ),称能力较差的天下模型为不变( invariant )。
运用 JEPA 的一个吸引人之处在于,运用对比步骤进修等变表征的步骤通常需要依赖于不变性损失来提高表征质量,无论是显式的还是隐式的。而 JEPA 的步骤则不存在这一缺点,因为表征的语义方面是通过潜在空间的修补进修的。在潜空间中工作还能让网络去除不必要的信息或难以展望的信息。这就使得 JEPA 方案很有吸引力,因为对于重建步骤来说,重建的质量不一定与表征质量相关。
要训练 IWM,第一步是从图象 I 生成源视图和目的视图(图 2 中分别为 x 和 y)。
研究者将 a_x→y 表示为从 x 到 y 的变更参数,即初始变更过程的逆转。它包含了 x 与 y 之间颜色抖动差异的信息,以及是否运用了每种破坏性增强的信息。
通过 p_ϕ 从事天下建模。然后分别通过编码器 f_θ 和它的指数移动平均得到源和目的。这样就有了 和 。运用 EMA 网络对避免解决方案崩溃至关重要。为了给作为天下模型的展望器设置条件,它被输出了关于目的的几何信息,以掩码 token 的形式以及 a_x→y。研究者将这些掩码 token 称为 m_a,它们对应于 中的位置。
然后,展望器 p_ϕ 将嵌入的源补丁 x_c、变更参数 a_x→y 和遮罩令牌 m_a 作为输出。其目的是匹配 p_ϕ(z_x, a_x→y, m_a) = 到 z_y。损失。运用的损失函数是展望 及其目的 z_y 之间的平方 L2 距离:
进修用于表征进修的图象天下模型
如前所述,进修等差数列表征和进修天下模型是密切相关的问题。因此,可以借用等差数学文献中的指标来评价训练好的天下模型的质量。研究者运用的主要指标是平均互斥等级(MRR)。
为了计算它,研究者生成了一组增强目的图象(实际为 256 幅)。他们通过展望器输出干净图象的表征,目的是展望目的图象。然后计算展望结果与增强表征库之间的距离,从中得出目的图象在该 NN 图中的等级。通过对多个图象和变更的倒数等级从事平均,就可以得到 MRR,从而了解天下模型的质量。MRR 接近 1 意味着天下模型能够运用变更,相反,MRR 接近 0 则意味着天下模型不能运用变更。
为了构建功能良好的 IWM,研究者分离出三个关键方面:展望器对变更(或操作)的条件限制、控制变更的复杂性以及控制展望器的容量。如果对其中任何一个环节处理不当,都会导致表征不稳定。
如表 1 所示,不从事调节会导致天下模型无法运用变更,而运用序列轴或特征轴从事调节则会导致良好的天下模型。研究者在实践中运用了特征调节,因为它能带来更高的下游功能。
如表 2 所示,增强越强,进修强天下模型就越容易。在更广泛的增强方案中,这一趋势仍在继续。
如果变更很复杂,展望器就需要更大的能力来运用它,意味着能力成为了进修图象天下模型的关键因素。如上表 2 ,深度展望器意味着能在更广泛的增强上进修到强大的天下模型,这也是 IWM 取得成功的关键。因此,展望能力是强大天下模型的关键组成部分。
与计算 MRR 的步骤相同,我们可以将展望的表征与变更图象库从事比较,并查看与展望最近邻的图象。如图 1 所示,IWM 进修到的天下模型能够正确运用潜空间中的变更。不过,可以看到灰度反转时存在一些误差,因为灰度无法正确反转。
以下可视化效果有助于强化 IWM 能够为图象转换进修强大的天下模型这一事实。
利用天下模型完成下游义务
论文还探讨了如何运用天下模型完成下游义务。
在图象上进修的天下模型的局限性在于,它们所解决的义务与大多数下游义务并不一致。
研究者表示,已经证明 IWM 可以运用色彩抖动或对图象从事着色,但这些并不是推动计算机视觉运用的义务。这与 LLM 形成了鲜明对比,在 LLM 中,展望下一个 token 是此类模型的主要运用之一。
因此,研究者探索了如何在视觉中利用天下模型来完成运用变更之外的义务,重点是图象分类和图象分割等判别义务。
首先,需要对展望器从事微调以解决判别义务。研究者按照 He et al. (2021) 的步骤,重点放在与微调协议的比较上。所研究的所有步骤都在 ImageNet 上从事了预训练和评价,并运用 ViT-B/16 作为编码器。
表 3 展示了定义展望义务的各种步骤及其对功能的影响。
表 4 中比较了展望器微调和编码器微调以及展望器和编码器的端到端微调,编码器运用了 ViTB/16。
从表 5 中可以看出,在对所有协议的功能从事汇总时,利用 IWM 可以在冻结编码器的情况下获得最佳功能,即允许利用预训练的每一部分。
表 6 展示了 I-JEPA 和 IWM 在 ADE20k 图象分割义务中的表现。
在图 3 中,展示了展望器微调与编码器微调相比的效率。
表征进修的主要目的之一是获得可用于各种义务的表征。就像展望器是为解决各种义务(着色、内画、变色)而训练的一样,对于每个义务,都有一个义务 token,以及一个义务特定的头和 / 或损失函数。然后合并所有义务损失,并更新展望器和特定义务头。这里研究了一种简单的情况,即批次在义务之间平均分配,同时注意到其他采样策略可能会进一步提高功能。
总之,当进修到一个好的天下模型后,通过微调就可以将其重新用于下游义务。这样就能以极低的成本实现与编码器微调相媲美的功能。通过从事多义务微调,它还能变得更加高效,更凸显了这种步骤的多功能性。
图象天下模型使表征更加灵活
为了完成对 IWM 在表征进修中的分析,研究者研究了它在自监督进修中常用的轻量级评价协议上的表现。本文重点关注线性探测和注意力探测。
如表 8 所示,当 IWM 进修一个不变的天下模型时,其表现类似于对比进修步骤,如 MoCov3,在线性探测中与 MIM 或其他基于 JEPA 的步骤相比有显著的功能提升。同样,当 IWM 进修一个等变的天下模型时,其表现类似于 MIM 步骤,如 MAE,在线性探测中功能较低,但在注意力探测中表现更具竞争力。
这表明,步骤之间的重大区别不一定在于表征的质量,而在于它们的笼统级别,即从中提取信息的难易程度。线性探测是最简单的评价之一,注意力探测稍微复杂一些,而微调则是更复杂的协议。
图 4 可以看出,评价协议的适用性与天下模型的等价性之间有着明显联系。不变性较高的天下模型在线性探测中表现出色,而等变天下模型在运用更大的评价头部,如在展望器微调中,有组合更好的表现。研究者们还注意到,由等变天下模型产生的更丰富的表征在跨域 OOD 数据集上具有更好的功能。
图 5 中按表征的笼统程度将步骤分类。对比进修步骤占据了高笼统度的一端,只需一个简单的协议就能轻松提取信息。然而,如表 5 所示,当忽略调整成本时,这些步骤的峰值功能较低。与之相反的是掩蔽图象建模法(MIM),它在微调等复杂评价中功能更强,但在线性探测中由于信息不易获取而表现不佳。通过改变天下模型的等变性,IWM 能够在对比进修步骤和 MIM 之间有属于自己的位置,如图 4 和表 8 所示, 和 是 IWM 光谱的两个极端。
这个光谱可以用自监督进修(SSL)的理念「进修可展望之物」来概括。通过一个弱天下模型从事进修意味着它无法正确地建模天下,编码器会移除那些无法展望的信息。反之,如果天下模型非常强大,那么表征就不需要那么笼统或语义化,因为它能够在任何情况下找到展望表征的步骤。这意味着,进修一个天下模型提供了一种可度量的方式来控制表征的笼统级别。
更多技术细节,请参阅原文。