就在刚刚,LeCun 一反常态地表示:AGI 离我们只有 5 到 10 年了!这个说法,跟之前的「永远差着 10 到 20 年」大相径庭。当然,他还是把 LLM 打为死路,坚信自己的 JEPA 路线。至此,各位大佬们的口径是对齐了,有眼力见儿的投资人该继续投钱了。
就在刚刚,LeCun 反水了!2023 年 12 月,他言之凿凿地坚称:人类水平的 AI,离我们还有 10 到 20 年。
然而就在最近,他忽然改变说法了!
现在,他表示:在 5 到 10 年内,我们就能拥有人类水平的 AI 了。
主持人追问:我们感觉您之前似乎不喜欢这个观点啊,您之前不是说过 AGI 离我们很远很远之类的话吗?
LeCun 立马否决道:不,我不觉得 AGI 离我们很远。
他还强调,自己对 AGI 何时到来的预测,跟 Sam Altman、Demis Hassabis 这些人也没什么不同。
总之,AGI 在十年内大概率要到来,但不太可能是明年或后年。
不过,虽然他改变了对时间的预测,但并没有改变对目前的大语言模型架构是死路一条的看法。
他表示,我们不能盲目推断 LLM 的能力,断定只要继续 scaling,用更大的超算、更多的数据,AGI 就会涌现。
我们需要的是 JEPA 之类的全新架构,从周围世界进行学习的系统。这种 AI 能按重要性计划一系列动作,而不是像目前的 LLM 一样,完全不加思考地在一个词后产生另一个词。
总之,我们需要的是系统 2,而不是系统 1。而目前的 LLM,仅限于系统 1 的阶段。而 LeCun 所探讨系统「目标驱动的人工智能」,就是系统 2。
对此,一众网友都震惊了:他以前不是坚定地否决 AGI 离我们很近这类观点吗?
有人解释道,这大概是因为大家还缺乏对于 AGI 共识的定义,因为对于 AGI 定义很模糊,所以怎么说都能自圆其说。
其中,下面这条留言最为好笑。
网友表示,估计有 Meta 内部的人找他谈了。说如果想要实现 AGI,就得拉很多很多投资。如果还在讲什么 AGI 遥不可及,我们就没办法忽悠更多的投资人了!
AI 的核心问题:对世界更好的心智模型
最近,LeCun 接受了 Nikhil Kamath 主持的 People by WTF 栏目的访问,讨论了关于 AI 的诸多问题。
LeCun 在巴黎的学校里学习的是 EE(电气工程),但随着学习的深入,他开始对数学、物理和 AI 中更基本的问题更兴趣。
在 EE 的学习中,总会有些课程涉及到计算机。在 1980 年代,LeCun 就已经和数学教授一起做了一些独立项目。
现在,LeCun 已经成为图灵三巨头之一。
作为科学家,他尝试建立世界的因果模型。
在他看来,几乎我们面临的每个问题,根源就是因为人类知识和智慧的不足。我们会犯错,就是因为不够聪明,无法意识到存在问题,所以也无法找到解决方案。
LeCun 表示,如果我们的智慧更多一点,如果我们对于世界如何运作有更好的心智模型,我们就不会像现在这样犯错,而是做出更理性的决策。
而这,也是 AI 领域的核心问题。
当今世界的一个大问题,就是人们没兴趣去找出事实,也不愿意自教育,但是,AI 有可能放大全人类的整体智能,这是解决许多人类问题的关键。
智能是一种由大量简单元素组成的网络相互连接所出现的现象。
在 40、50 年代,人们开始发现,智能和记忆来自于神经元之间连接强度的一种简化方式。大脑学习的方式,是通过修改神经元之间的连接强度来实现的。
因此,有些人提出了理论模型,并且用电子电路将之复现了。
经典计算机科学的出现:启发式编程
按照解决问题能力和学习能力,AI 形成了两个分支。
后者在 50、60 年代取得了一些成果,但在 60 年代后期却失败了。因为当时设计的神经网络学习程序非常有限,不可能用来制造真正智能的机器。
不过,它在模式识别的工程领域,却产生了很大影响。
接下来,他们谈到了启发式编程。
机器学习最简单的情况,就是去感知,解释图像,解释声音,这是经典计算机科学出现的原因。
我们编写一个程序,这个程序在内部搜索解决方案,并且有一种方式来检查它提出的方案是否合适,这就是启发式编程。
然而,我们无法详尽无遗地搜索所有可能的方案,来找到一个最好的解,因为解决方案的数量大得惊人。
就像在国际象棋中,动作序列是一个指数级的增长,以后我们需要启发式方法,让树搜索或专家 AI 来运行一个函数,尝试达到最终状态。
好的系统和坏的系统的区别就在于,系统是否足够聪明,能在不进行穷尽搜索的情况下,找到一个好的解决方案。
这就引出了专家系统,或基于世界的系统的 AI。它们与搜索的概念密切相关。
人们提出了一种算法,来改变神经元之间连接的强度,使他们能够学习任务,这种类型的第一个机器叫做感知机,在 1957 年被提出来。
MIT 教授 Marvin Minsky 和同校的数学家 Seymour Papert 就合著了一本《感知机》,这种统计模型识别在现实世界中有巨大的应用。
不过,感知机有个严重的问题,就是它可访问的函数类型非常有限,没办法让我们用一张自然图片,就能训练系统判断其中是否有狗、猫或者桌子。
系统不够强大,无法真正计算这种复杂的函数。
强化学习与自监督学习
在 80 年代,神经网络和深度学习改变了这一切。实际上,神经网络是深度学习的祖先,深度学习可以看作它的新名字。
我们的想法是,不是完全编程让机器去做某事,而是通过数据对其进行训练。
在机器学习中,有线性回归,分类树,支持向量机、核方法、贝叶斯推理等等。
在某种程度上,它们都遵循这样的模型:我们构建了一个程序,但它实际上还没有完成。它有一堆可调参数,输入输出函数由这些参数的值决定。
因此,我们使用迭代调整技术从数据中训练系统。如果示例答案不正确,就调整参数,使其更接近我们想要的答案。
在强化学习中,我们不直接告知系统正确答案。只是告诉它所产生的答案好坏与否。
而过去五六年非常突出的自监督学习,已经真正成为让聊天机器人和自然语言理解系统成功的主要因素。
它更类似于监督学习,但不同之处在于不需要有一个明确的输入和输出,并训练系统从输入生成输出。
唯一的区别并不在于算法本身,而是体现在系统的结构和数据的使用及生成方式上。
我们不需要有人逐一检查数百万张图片,告诉它这是猫还是狗在桌子旁边。我们只需展示一张狗、猫或桌子的照片,并对其进行破坏,部分改变它,然后要求系统从损坏的图像中恢复原始图像。
这就是自监督学习的一种特定形式。
而这,对于自然语言理解的成功起到了关键作用。
比如,在大语言模型中,我们训练一个系统来预测下一个词,但是只允许它查看前面的词语。这就需要以一种特定的方式构建神经网络,使得用于预测一个词的连接只能看到前边的词,这样就不必对输入进行干扰了。
最终,系统被训练成从内容中预测出接下来的单词。
在 Transformer 架构下,基本原理就是将每个输入与其他输入进行比较,并生成权重。
反向传播算法与卷积神经网络
而反向传播算法的作用,就是在我们展示一张 C 的图像,并告诉系统这是 C 时,它能激活相应的输出神经元,而不激活其他神经元。
它知道如何调整参数,使得输出更接近我们想要的结果。这是通过向后传播信号来实现的,基本上可以说是确定每个权重对每个输出的敏感度,从而改变权重,让好的输出增加,坏的输出减少。
其实,反向传播算法之前就存在,但当时人们没有意识到它可以用于机器学习,后来它从 20 世纪 80 年代开始风靡。
反向传播算法至关重要,因为它打破了 Minsky 和 Papert 在 20 世纪 60 年代所说的感知机的限制,因此掀起了一股巨大的浪潮。
但人们后来意识到:训练这些神经网络需要大量的数据。
那时候还没有互联网,数据并不丰富,计算机速度也不快,因而人们对此兴趣减弱。
但是在 80 年代末、90 年代初,LeCun 研究的一个项目是,如果想让这种系统识别图像,就需要以某种特定的方式连接神经元来促进系统的关注。
他从生物学中获得了灵感,借鉴了可以追溯到 20 世纪 60 年代的经典神经科学研究,以分层的方式来组织神经元之间的连接,使它们倾向于找到良好的图像识别解决方案。
这就是所谓的卷积神经网络。
它的设计灵感,来源于视觉皮层的架构。
卷积神经网络特别适合处理来自自然世界的数据,如果我们拍一张照片,并取其中两个相邻的像素点,它们很可能具有相同的颜色或相同的强度。
像图像和音频这样的自然数据,以及几乎所有类型的自然信号都有其内在的结构。如我们以特定方式构建神经网络来利用这种结构,它将学得更快,并且只需较少样本即可学习。
卷积是卷积神经网络中的一个组件。
它的思想是,一个神经元查看输入的一部分,另一个神经元查看输入的另一部分,但它计算与第一个神经元相同的函数。
接着将这个相同的神经元复制到输入的所有位置上,这样我们就可以把每个神经元看作是在检测输入某一部分的一个特定模式,并且所有神经元在输入的不同部位都检测同一个模式。
所以现在如果你取一个输入并将其移动,就会得到同样的输出,但位置不同,因为相同的神经元会查看,并在不同的位置上检测到相同模式。
这就是为什么它会给你这种位移等变性,也就是所谓卷积。
它们之于真正的神经元,就如同飞机的机翼之于鸟类的翅膀 —— 功能相同,具有同样的概念。
AI 捕捉到了语法的机器学习机制
香农的 n-game 模型,是一个语言模型。
我们可以在字符级别这样做,但是在单词级别这样做,就会更困难,因为可能有一万个可能的单词。
我们需要在通过在一个大型文本语料库上训练,来填充这个概率表,从而训练一个词模型或语言模型。
但是在某个上下文长度以上,就变得不切实际了。因为需要大量的计算和工作量,还涉及到存储所有这些表格的记忆,另外这些表格的填充也会非常稀疏,因为即使有数十亿个词的文本,大多数词组组合都是不会出现的。
而如果采用 Transformer 这类架构的话,就能构建起一个系统,使其能够根据上下文中的词语预测下一个词。
如果让这个上下文尽可能大,比如几千个、几万个甚至一百万个词,那么就会得到具有涌现特性的系统。如果把它们做得足够大,可能能达到数十亿或数百亿个参数。
在这种情况下,如果是文本的话,它们会复述解谜的答案,会给出你可能需要的问题答案。
这个过程中主要是检索,有一点点推理,但不多。
人们真正感到惊讶的,是这些系统能以令人印象深刻的方式操纵语言。
要知道,人类在操纵语言方面其实相当有限,但 AI 似乎做得很好 —— 它们捕捉到了语法的机器学习机制。
大语言模型,并不是通往 AGI 的路径
在语言中,可能性有限的情况下,我们的确可以输出一个概率列表。
但如果想预测视频中会发生什么,帧数却是无限的。一张图像有一千个像素,像素颜色有三个值,因此需要生成三百万个值,但我们还不知道如何表示所有可能的图像集的概率分布。
这是我们很多人认为 AI 领域下一个挑战的地方。
如果说从视频和图片中学习,这将是下一阶段,那么它应该放在哪里?它属于大语言模型现在的范畴吗?
不,它与大语言模型完全不同。这也是为什么 LeCun 一直明确表示,大语言模型并不是通往人类级别智能的路径。
这也是为什么大语言模型无法理解物理世界,并且不能以目前的形式真正理解和应对现实世界的原因。
尽管 LLM 在处理语言方面表现出色,但它们也会犯非常愚蠢的错误,这表明其实它们并不理解世界是如何运作的。
我们没有真正理解基本事物的系统,而这些是你的猫都能理解的事。
所以 LeCun 一直直言不讳地说,最聪明的 LLM 也并不比你家里猫更聪明。
JEPA:LeCun 心中的「世界模型」
由此,也就引出了 AI 领域的下一个挑战 —— 如何构建能够通过视频学习世界运行规律的系统。
人类对于周遭世界的认识,特别是在生命的早期,很大程度上是通过「观察」获得的。
就拿牛顿的「运动第三定律」来说,即便是婴儿,或者猫,再多次把东西从桌上推下并观察结果,也能自然而然地领悟到:凡是在高处的任何物体,终将掉落。
这种认识,并不需要经过长时间的指导,或阅读海量的书籍就能得出。
相比之下,如今的 LLM 只适用于离散的语言世界,而无法理解连续高维的物理世界,例如视频中的动态。
这种局限性使 LLM 难以应对现实世界的问题,也就是为什么 LLM 能通过考试写文章,但我们还没有家用机器人和 L5 自动驾驶。
目前,LLM 的记忆分为两种:
1. 参数记忆:在训练过程中学到的知识,但无法逐字复述训练数据。
2. 上下文记忆:通过输入提示词暂时存储信息,但范围有限。
然而,真正理解物理世界的 AI 需要持久记忆,类似于人类大脑中的海马体,能够存储和检索长期信息。但目前的 LLM 缺乏独立的记忆模块,无法高效搜索和评估多种可能的答案。
为了实现这一目标,我们需要新的架构,摆脱 LLM 的自回归方法,转而适用于视频的自监督学习。
具体方法是让 AI 通过预测视频中接下来的变化来理解世界的底层结构,而不是简单地生成每个像素的变化。
这种预测能力可以帮助 AI 构建「世界模型」,从而支持规划和推理。例如,预测推杯子、抓取、提起等动作的结果是否能实现目标。
回到如何让机器通过观察世界来学习这个问题上。很显然,我们不能靠着现在这种仅仅生成视频中每个像素的生成式架构。
为此,LeCun 的团队尝试了近 15 年的时间,并在 5 年前提出了一种全新的方法 ——JEPA(联合嵌入预测架构)。
一直以来,LeCun 坚信世界有一种「世界模型」,并着力开发一种新的类似大脑的 AI 架构,目的是通过更真实地模拟现实世界来解决当前系统的局限性,例如幻觉和逻辑上的缺陷。
这也是想要 AI 接近人类智力水平,需要像婴儿一样学习世界运作的方式。
这个世界模型的架构,由 6 个独立的模块组成:配置器模块、感知模块、世界模型模块、成本模块、短期记忆模块,以及参与者模块。
其中,核心是世界模型模块,旨在根据来自感知模块的信息预测世界。能够感知人在向哪移动?汽车是转弯还是继续直行?
另外,世界模型必须学习世界的抽象表示,保留重要的细节,并忽略不重要的细节。然后,它必须在与任务水平相适应的抽象级别上提供预测。
自 2022 年 LeCun 首提 JEPA 之后,I-JEPA 和 V-JEPA 分别基于图像、视频拥有强大的预测能力。
值得一提的是,V-JEPA 的发布正好是 OpenAI 推出 Sora 模型的当天。
论文地址:https://ai.meta.com/ research / publications / revisiting-feature-prediction-for-learning-visual-representations-from-video/与生成式 AI 模型完全不同,V-JEPA 是一种「非生成式模型」。它通过预测视频中被隐藏或缺失部分,在一种抽象空间的表示来进行学习。
这与图像联合嵌入预测架构(I-JEPA)类似,后者通过比较图像的抽象表示进行学习,而不是直接比较「像素」。
不同于那些尝试重建每一个缺失像素的生成式方法,V-JEPA 能够舍弃那些难以预测的信息,这种做法使得在训练和样本效率上实现了 1.5-6 倍的提升。
由于采用了自监督的学习方式,V-JEPA 可以完全依靠未标注的数据进行预训练,然后再通过标注数据进行微调即可。
在看到下面视频中的动作时,V-JEPA 会说「将纸撕成两半」。
再比如,翻看笔记本的视频被遮挡了一部分,V-JEPA 便能够对笔记本上的内容做出不同的预测。
这些,是 V-JEPA 在观看 200 万个视频后,就获取到的超能力。
总结来说,现有的大语言模型属于系统一思维,即快速、直觉性的反应。而 AGI 需要的是系统二思维:深度思考、理性分析和战略规划。
对此,LeCun 提出的「目标驱动人工智能」架构正是基于系统二思维,也就是说,它能够从真实世界中学习并且可以进行分层规划。
参考资料:
https://x.com/tsarnick/status/1861921602235150545