LeCun最新专访：为什么物理天下终将成为LLM的「死穴」？

在人工智能领域，很少有像 Yann LeCun 这样的学者，在 65 岁的年龄还能高度活跃于社交媒体。一直以来，Yann LeCun 都是以「直言不讳的批评者」形象活跃于人工智能领域。他始终支持开源，并带领 Meta 的团队推出了占据如今开源大模型领域半壁江山的 Llama 2；他对不少人深感恐慌的人工智能末日论不以为然，坚信 AGI 的到来一定是件好事……近日，LeCun 又一次来到 Lex Fridman 的播客，展开了一场接近三个小时的对谈，内容涉及开源的重要性、LLM 的局限性、为什么人工智能末日论者是错误

在人工智能领域，很少有像 Yann LeCun 这样的学者，在 65 岁的年龄还能高度活跃于社交媒体。

一直以来，Yann LeCun 都是以「直言不讳的批评者」形象活跃于人工智能领域。他始终支持开源，并带领 Meta 的团队推出了占据如今开源大模型领域半壁江山的 Llama 2；他对不少人深感恐慌的人工智能末日论不以为然，坚信 AGI 的到来一定是件好事……

近日，LeCun 又一次来到 Lex Fridman 的播客，展开了一场接近三个小时的对谈，内容涉及开源的重要性、LLM 的局限性、为什么人工智能末日论者是错误的，以及通向 AGI 的道路等话题。

LeCun最新专访：为什么物理天下终将成为LLM的「死穴」？

观看页面：https://youtu.be/5t1vTLU7s40?feature=shared

我们从这场播客内容中精选了一些有参考价值的观点，以下是相关内容：

LLM 的局限性

Lex Fridman：你说过，自回归 LLM 并不是我们在超人类智能方面取得进展的方式。为什么它们不能带我们一路走下去？

Yann LeCun：出于多种原因。首先，智能行为有许多特征。例如，理解天下的能力、理解物理天下的能力、记忆和检索事物的能力、持久性记忆、推理能力和计划能力。这是智能体系或实体、人类、动物的四个基本特征。LLM 没法做到这些，或者只能以非常原始的方式做到这些，而且并不真正了解物理天下。LLM 并没有真正的持久记忆，没法真正推理，当然也没法计划。因此，如果你期望体系变得智能，但却没法做这些事情，那么你就犯了一个错误。这并不是说自回归 LLM 没有用。它们当然有用，但它们并不有趣，我们没法围绕它们构建整个应用程序生态体系。但作为迈向人类水平智能的通行证，它们缺少必要的组成部分。

通过感官输出，我们看到的信息比通过言语看到的信息多得多，尽管我们有直觉，但我们学到的大部分内容和知识都是通过我们的观察和与现实天下的互动，而不是通过通过言语。我们在生命最初几年学到的一切，当然还有动物学到的一切，都与言语无关。

Lex Fridman：也就是你所说的，LLM 缺乏对物理天下的理解？所以，直觉物理学、关于物理空间、关于物理现实的常识推理对你来说没有什么特别之处。这是 LLM 没法做到的巨大飞跃？

Yann LeCun：我们今天使用的 LLM 没法做到这一点，原因有不少，但最主要的原因是 LLM 的训练方式是：你获取一段文本，删除文本中的一些单词，屏蔽它们，用空白 token 代替它们，然后训练一个遗传神经网络来猜测缺失的单词。如果你以一种特殊的方式构建这个神经网络，让它只能查看左侧的单词或它试图猜测的单词，那么你所失去的体系基本上就是试图猜测文本中的下一个单词。因此，你可以给它输出一段文字、一个提示，然后让它猜测下一个单词。它永远没法准确猜测下一个单词。

因此，它要做的就是生成字典中一起大概单词的概率分布。事实上，它并不猜测单词。它猜测的是作为子单词单位的词块，因此很容易处理猜测中的不确定性，因为字典中大概出现的单词数量有限，你只需计算它们的分布即可。然后，体系就会从该分布中选出一个词。当然，在该分布中，选取概率较高的词的几率会更高。因此，你从该分布中采样，实际产生一个单词，然后将该单词移入输出中，这样体系就不会猜测第二个单词了。

这就是所谓的自回归猜测，这也是为什么这些 LLM 应该被称为「自回归 LLMs」，但我们只是称其为 LLM。这种过程与在产生一个单词以前的过程是有区别的。

当你我交谈时，你我都是双语者，我们会思考我们要说什么，而这与我们要说的言语相对独立。当我们谈论一个数学概念时，我们所做的思考和我们打算给出的答案与我们是用法语、俄语还是英语来表达无关。

Lex Fridman：乔姆斯基翻了个白眼，但我明白，所以你是说有一个更大的形象存在于言语以前并映射到言语？

Yann LeCun：对于我们所做的不少思考来说，是的。

Lex Fridman：你的幽默是形象的吗？当你发推文时，你的推文有时有点辛辣，在推文映射到英语以前，你的大脑中是否有一个形象的表示？

Yann LeCun：确实有一个形象的表示来想象读者对该文本的反应。但是，想一个数学概念，或者想象一下你想用木头做一个什么用具，或者诸如此类的用具，这种思考与言语完全无关。你并不是在用某种特定的言语进行内心独白。你是在想象事物的心理模型。我的意思是，如果我让你想象一下，如果我把这个水瓶旋转 90 度，它会是什么样子，这与言语毫无关系。很显然，我们的大部分思考都是在更形象的表征层面上进行的，如果输出的是言语，我们会计划好要说的话，而不是输出肌肉动作，我们会在做出答案以前就计划好答案。

LLM 不会这样做，只是本能地说出一个又一个单词。这有点像下意识的动作，有人来问你一个问题，你就会回答这个问题。没有时间思考答案，但答案很简单。所以你不需求注意，会自动做出反应。这就是 LLM 的工作。它真的不会思考答案。因为它已经积累了不少知识，所以能检索到一些用具，但也只会吐出一个又一个 token，而不会计划答案。

Lex Fridman：一个 token 一个 token 地生成必然是简单化的，但如果天下模型足够复杂，它最有大概生成的是一连串的 token，这将是一件深奥的事情。

Yann LeCun：但这基于一个假设：这些体系实际上失去一个永恒的天下模型。

视频猜测

Lex Fridman：所以真正的问题是…… 能否建立一个对天下有深刻理解的模型？

Yann LeCun：能否通过猜测来构建它，答案很大概是肯定的。但能通过猜测单词来构建它吗？答案很大概是否定的，因为言语在弱带宽或低带宽方面非常贫乏，没有足够的信息。因此，建立天下模型意味着要观察天下，了解天下为什么会以这样的方式演变，然后天下模型的额外组成部分就是能够猜测你大概采取的行动会导致天下如何演变。

因此，一个真正的模型是：这是我对 T 时天下状态的想法，这是我大概采取的行动。在 T+1 时间，猜测的天下状态是什么？现在，天下的状态并不需求代表天下的一切，它只需求代表与这次行动规划相关的足够多的信息，但不一定是一起的细节。

现在，问题来了。生成模型没法做到这一点。因此，生成模型需求在视频上进行训练，我们已经尝试了 10 年，你拍摄一段视频，向体系展示一段视频，然后要求你猜测视频的提醒，基本上就是猜测将要发生什么。

如果你愿意，可以制作大型视频模型。这样做的想法由来已久，在 FAIR，我和我们的一些同事尝试这样做已有 10 年之久，但你没法真正做到与 LLM 相同的技巧，因为 LLM，正如我所说，你没法准确猜测哪一个单词会跟随一连串单词，但你可以猜测单词的分布。现在，如果你去看视频，你要做的就是猜测视频中一起大概帧的分布，而我们并不知道如何正确地做到这一点。

我们不知道如何以有用的方式来表示高维连续空间上的分布。这就是主要问题所在，我们之所以能做到这一点，是因为这个天下比文字复杂得多，信息丰富得多。文本是离散的，而视频是高维的、连续的。这里面有不少细节。因此，如果我拍摄了这个房间的视频，视频中的摄像机在四处转动，我根本没法猜测在我四处转动时房间里会出现的一起用具。体系也没法猜测摄像机转动时房间里会出现什么。也许它能猜测到这是一个房间，里面有一盏灯，有一面墙，诸如此类的用具。它没法猜测墙壁上的画是什么样子，也没法猜测沙发的纹理是什么样子。当然也没法猜测地毯的质地。所以我没法猜测一起这些细节。

因此，一种大概的处理方法，也是我们一直在研究的方法，就是建立一个失去所谓潜在变量的模型。潜在变量被输出到神经网络中，它应该代表一起你还没有感知到的关于这个天下的信息，你需求增强体系的猜测能力，才能很好地猜测像素，包括地毯、沙发和墙上画作的细微纹理。

我们试过直接的神经网络，试过 GAN，试过 VAE，试过各种正则化自动编码器。我们还尝试用这些方法来进修图象或视频的良好表征，然后将其作为图象分类体系等的输出。基本上都失败了。

一起试图从损坏版本的图象或视频中猜测缺失部分的体系，基本上都是这样的：获取图象或视频，将其损坏或以某种方式进行转换，然后尝试从损坏版本中重建完整的视频或图象，然后希望体系内部能够开发出良好的图象表征，以便用于物体识别、分割等任何用途。这种方法基本上是完全失败的，而它在文本方面却非常有效。这就是用于 LLM 的原理。

Lex Fridman：失败究竟出在哪里？是很难很好地呈现图象，比如将一起重要信息很好地嵌入图象？是图象与图象、图象与图象之间的一致性形成了视频？如果我们把你一起失败的方式做一个集锦，那会是什么样子？

Yann LeCun：首先，我必须告诉你什么是行不通的，因为还有其他用具是行得通的。所以，行不通的地方就是训练体系进修图象的表征，训练它从损坏的图象中重建出好的图象。

对此，我们有一整套技术，它们都是去噪自编码器的变体，我在 FAIR 的一些同事开发了一种叫做 MAE 的用具，即掩蔽自编码器。因此，它基本上就像 LLM 或类似的用具，你通过破坏文本来训练体系，但你破坏图象，从中删除补丁，然后训练一个巨大的神经网络重建。你得到的特征并不好，而且你也知道它们不好，因为如果你现在训练同样的架构，但你用标签数据、图象的文字描述等对它进行监督训练，你确实能得到很好的表征，在识别任务上的表现比你做这种自监督的再训练要好得多。

结构是好的，编码器的结构也是好的，但事实上，你训练体系重建图象，并不能使它产生长而良好的图象通用特征。那还有什么选择呢？另一种方法是联合嵌入。

JEPA（联合嵌入猜测架构）

Lex Fridman：：联合嵌入架构与 LLM 之间的根本区别是什么？JEPA 能带我们进入 AGI 吗？

Yann LeCun：首先，它与 LLM 等生成式架构有什么区别？LLM 或通过重构训练的视觉体系会生成输出。它们生成的原始输出是未损坏、未转换的，因此你必须猜测一起像素，而体系需求花费大量资源来实际猜测一起像素和一起细节。而在 JEPA 中，你不需求猜测一起像素，你只需求猜测输出的形象表示。这在不少方面都要容易得多。因此，JEPA 体系在训练时，要做的就是从输出中提取尽大概多的信息，但只提取相对容易猜测的信息。因此，天下上有不少事情是我们没法猜测的。例如，如果你有一辆自动驾驶汽车在街上或马路上行驶，道路周围大概有树，而且今天大概是大风天。因此，树上的叶子会以一种你没法猜测的半混乱、随机的方式移动，而你并不关心，也不想猜测。因此，你希望编码器基本上能消除一起这些细节。它会告诉你树叶在动，但不会告诉你具体发生了什么。因此，当你在表示空间中进行猜测时，你不必猜测每片树叶的每个像素。这样不仅简单得多，而且还能让体系从本质上进修到天下的形象表征，其中可以建模和猜测的内容被保留下来，其余的则被编码器视为噪音并消除掉。

因此，它提升了表征的形象程度。仔细想想，这绝对是我们一直在做的事情。每当我们描述一种现象时，我们都会在特定的形象层次上进行描述。我们并不总是用量子场论来描述每一种自然现象。那是不大概的。因此，我们有多个形象层次来描述天下上发生的事情，从量子场论到原子理论、分子、化学、材料，一直到现实天下中的具体物体等等。因此，我们不能只在最底层模拟一切。而这正是 JEPA 的理念所在，以自我监督的方式进修形象表征，而且还可以分层进修。因此，我认为这是智能体系的重要组成部分。而在言语方面，我们可以不用这样做，因为言语在某种程度上已经是形象的，已经消除了不少不可猜测的信息。因此，我们可以不做联合嵌入，不提升形象程度，直接猜测单词。

Lex Fridman：你是说言语，我们懒得用言语，因为我们已经免费得到了形象的表述，而现在我们必须放大，真正思考一般的智能体系。我们必须处理一塌糊涂的物理现实和现实。而你确实必须这样做，从完整、丰富、详尽的现实跳转到基于你所能推理的现实的形象表征，以及一起诸如此类的用具。

Yann LeCun：没错。那些通过猜测来进修的自监督算法，即使是在表征空间中，如果输出数据的冗余度越高，它们进修到的概念也就越多。数据的冗余度越高，它们就越能捕捉到数据的内部结构。因此，在知觉输出、视觉等感官输出中，冗余结构要比文本中的冗余结构多得多。言语大概真的代表了更多的信息，因为它已经被压缩了。你说得没错，但这也意味着它的冗余度更低，因此自监督的效果就不会那么好。

Lex Fridman：有没有大概将视觉数据的自监督训练与言语数据的自监督训练结合起来？尽管你说的是 10 到 13 个 token，但其中蕴含着大量的知识。这 10 到 13 个 token 代表了我们人类已经弄明白的全部内容，包括 Reddit 上的废话、一起书籍和文章的内容以及人类智力创造的全部内容。

Yann LeCun：嗯，最终是的。但我认为，如果我们太早这样做，就有大概被诱导作弊。而事实上，这正是目前人们在视觉言语模型上所做的。我们基本上是在作弊，在用言语作为拐杖，帮助我们视觉体系的缺陷从图象和视频中进修良好的表征。

这样做的问题是，我们可以通过向言语模型提供图象来改进它们，但我们甚至没法达到猫或狗的智力水平或对天下的理解水平，因为它们没有言语。它们没有言语，但对天下的理解却比任何 LLM 都要好得多。它们可以计划非常复杂的行动，并想象一系列行动的结果。在将其与言语结合以前，我们如何让机器学会这些？显然，如果我们将其与言语相结合，会取得成果，但在此以前，我们必须专注于如何让体系进修天下是如何运作的。

事实上，我们使用的技术是非对比性的。因此，不仅架构是非生成的，我们使用的进修程序也是非对比的。我们有两套技术。一套是基于蒸馏法，有不少方法都采用了这一原理，DeepMind 有一种叫 BYOL，FAIR 有几种，一种叫 vcREG，还有一种叫 I-JEPA。应该说，vcREG 并不是一种蒸馏方法，但 I-JEPA 和 BYOL 肯定是。还有一种也叫 DINO 或 DINO，也是从 FAIR 生产出来的。这些方法的原理是，你将完整的输出，比如说一张图片，通过编码器运行，产生一个表示，然后你对输出进行破坏或转换，通过本质上等同于相同的编码器运行，但有一些细微差别，然后训练一个猜测器。

有时猜测器非常简单，有时猜测器并不存在，但要训练一个猜测器来猜测第一个未损坏输出与已损坏输出之间的关系。但你只训练第二个分支。你只训练网络中输出损坏输出的部分。另一个网络则不需求训练。但由于它们共享相同的权重，当你修改第一个网络时，它也会修改第二个网络。通过各种技巧，你可以防止体系崩溃，就像我以前解释的那种崩溃，体系基本上会忽略输出。因此，这种方法非常有效。我们在 FAIR 开发的两种技术，DINO 和 I-JEPA 在这方面都非常有效。

我们的最新版本称为 V-JEPA。它与 I-JEPA 的理念基本相同，只是将其应用于视频。因此，你可以获取整个视频，然后屏蔽其中的一大块内容。我们所屏蔽的实际上是一个时间管，所以是整个视频中每一帧的整个片段。

这是我们所失去的第一个能进修到良好视频表征的体系，因此当你将这些表征输出到一个有监督的分类器头部时，它能以相当高的准确率告诉你视频中发生了什么动作。因此，这是我们第一次获得这种质量的用具。

结果似乎表明，我们的体系可以通过表征来判断视频在物理上是大概的，还是完全不大概的，因为某些物体消失了，或者某个物体突然从一个位置跳到另一个位置，或者改变了形状什么的。

Lex Fridman：这能让我们建立一种足够了解天下并能够驾驶汽车的天下模型吗？

Yann LeCun：大概还需求一段时间才能达到这个目标。现在已经有一些机器人体系，就是基于这个想法。你需求的是一个稍加改动的版本，想象你有一段完整的视频，而你对这段视频所做的，就是把它在时间上转换到未来。因此，你只能看到视频的开头，而看不到原始视频中的后半部分，或者只屏蔽视频的后半部分。然后你就可以训练一个 JEPA 体系或我描述的那种体系，来猜测被遮挡视频的完整表现形式。不过，你也要给猜测器提供一个动作。例如，车轮向右转动 10 度或其他动作，对吗？

因此，如果这是一个汽车摄像头，而你又知道方向盘的角度，那么在某种程度上，你应该能够猜测你所看到的画面会发生什么变化。显然，你没法猜测视图中出现的物体的一起细节，但在形象表示层面，你或许可以猜测将要发生的事情。所以，现在你有了一个内部模型，它说："这是我对 T 时刻天下状态的想法，这是我正在采取的行动。这里是对 T 加 1、T 加 delta T、T 加 2 秒时天下状态的猜测，" 不管它是什么。如果你有这样一个模型，你就可以用它来进行规划。因此，现在你可以做 LMS 做不到的事情，即规划你要做的事情。因此，当你到达一个特定的结果或满足一个特定的目标时。

因此，你可以有不少目标。我可以猜测，如果我有一个这样的物体，我张开手，它就会掉下来。如果我用一种特定的力量把它推到桌子上，它就会移动。如果我用同样的力推桌子，它大概不会移动。因此，我们脑海中就有了这个天下的内部模型，它能让我们计划一系列的行动，以达到特定的目标。现在，如果你有了这个天下模型，我们就可以想象一连串的动作，猜测这一连串动作的结果，衡量最终状态在多大程度上满足了某个特定目标，比如把瓶子移到桌子左边，然后在运行时规划一连串动作，使这个目标最小化。

我们说的不是进修，而是推理时间，所以这就是规划，真的。在最优控制中，这是一个非常经典的用具。它被称为模型猜测控制。你有一个想要控制的体系模型，它能猜测与一系列指令相对应的状态序列。而你正在规划一连串的指令，以便根据你的角色模型，体系的最终状态将满足你设定的目标。自从有了计算机，也就是 60 年代初开始，火箭轨迹的规划就一直采用这种方式。

强化进修

Lex Fridman：建议放弃生成模型而转而采用联合嵌入架构？你已经有一段时间是强化进修的批评者了。这感觉就像法庭证词，放弃概率模型，转而支持我们谈到的基于能量的模型，放弃对比方法，转而支持正则化方法。

Yann LeCun：我认为它不应该被完全放弃，但我认为它的使用应该最小化，因为它在采样方面效率非常低。因此，训练体系的正确方法是首先让它从主要观察（也许还有一点交互）中进修天下和天下模型的良好表示。

Lex Fridman：RLHF 为什么效果这么好？

Yann LeCun：具有转化效果的是人类反馈，有不少方法可以使用它，其中一些只是纯粹的监督，实际上，它并不是真正的强化进修。

开源

Yann LeCun：失去人工智能行业、失去不存在独特偏见的人工智能体系的唯一方法就是失去开源平台，任何团体都可以在该平台上构建专门的体系。历史的必然方向就是，绝大多数的 AI 体系都会建立在开源平台之上。

Meta 围绕的商业模式是，你提供一种服务，而这种服务的资金来源要么是广告，要么是商业客户。

举例来说，如果你有一个 LLM，它可以通过 WhatsApp 与顾客对话，帮助一家披萨店，顾客只需点一份披萨，体系就会问他们：「你想要什么配料或什么尺寸，等等」。商家会为此付费，这就是一种模式。

否则，如果是比较经典的服务体系，它可以由广告支持，或者有几种模式。但问题是，如果你有足够大的潜在客户群，而且无论如何你都需求为他们构建该体系，那么将其发布到开放源代码中也无伤大雅。

Lex Fridman：Meta 所打的赌是：我们会做得更好吗？

Yann LeCun：不。赌注更大，我们已经失去庞大的用户群和客户群。

我们提供开源的体系或基本模型、基础模型，供他人在此基础上构建应用程序，这也无伤大雅。如果这些应用对我们的客户有用，我们可以直接向他们购买。他们大概会改进平台。事实上，我们已经看到了这一点。LLaMA 2 的下载量已达数百万次，成千上万的人提出了如何改进平台的想法。因此，这显然加快了向广大用户提供该体系的进程，而且数以千计的企业正在使用该体系构建应用程序。因此，Meta 从这项技术中获取收入的能力并没有因为基础模型的开源分布而受到影响。

Llama 3

Lex Fridman：关于 LLaMA 3 ，你最兴奋的是什么？

Yann LeCun：会有各种版本的 LLaMA，它们是对以前的 LLaMA 的改进，更大、更好、多模态，诸如此类。然后，在未来的几代中，有能够真正了解天下如何运作的规划体系，大概是通过视频进行训练的，因此它们会有一些天下模型，大概能够进行我以前谈到的推理和规划类型。

这需求多长时间？朝这个方向进行的研究什么时候会进入产品线？我不知道，也不能告诉你。在我们实现这一目标以前，我们基本上必须经历一些突破，但大家能够监控我们的进展，因为我们公开发布了自己的研究。因此，上周我们发布了 V-JEPA 工作，这是迈向视频训练体系的第一步。

下一步将是基于这种视频创意训练的天下模型。DeepMind 也有类似的工作，加州大学伯克利分校也有关于天下模型和视频的工作。不少人都在做这方面的工作。我认为不少好的想法正在出现。我敢打赌，这些体系将是 JEPA 轻型体系，它们不会是生成模型，我们将看看未来会发生什么。

30 多年前，我们正在研究组合网络和早期的神经网络，我看到了一条通往人类水平智能的道路，体系可以理解天下、记忆、计划、推理。有一些想法可以取得进展，大概有机会发挥作用，我对此感到非常兴奋。

我喜欢的是，我们在某种程度上朝着一个好的方向前进，也许在我的大脑变成白沙司或在需求退休以前取得成功。

Lex Fridman：你的大部分兴奋点还是在理论方面，也就是软件方面？

Yann LeCun：不少年前我曾经是一名硬件人员。规模是必要的，但还不够。有大概我未来还能活十年，但我还是要跑一小段距离。当然，对于能源的效率，我们取得的进步越远，我们在努力工作方面取得的进步就越多。我们必须降低功耗。如今，一个 GPU 的功耗在半千瓦到一千瓦之间。人脑的功率约为 25 瓦，而 GPU 的功率远远低于人脑。你需求 10 万或 100 万的功率才能与之媲美，所以我们的差距非常大。

AGI

Lex Fridman：你经常说 GI 不会很快到来，背后的基本直觉是什么？

Yann LeCun：那种被科幻小说和好莱坞广为流传的想法，即某个人会发现 AGI 或人类级 AI 或 AMI（不管你怎么称呼它）的秘密，然后打开机器，我们就失去了 AGI，是不大概发生的。

这将是一个循序渐进的过程。我们是否会有体系能从视频中了解天下是如何运作的，并进修良好的表征？达到我们在人类身上观察到的规模和性能以前，还需求相当长的一段时间，不是一天两天的事。

我们会让体系失去大量关联记忆，从而记住用具吗？是的，但这也不是明天就能实现的。我们需求开发一些基本技术。我们有不少这样的技术，但要让它们与完整的体系协同工作，那就是另一回事了。

我们是否将失去能够推理和规划的体系，或许就像我以前描述的目标驱动型人工智能架构那样？是的，但要让它正常工作，还需求一段时间。在我们让一起这些用具协同工作以前，在让体系基于此实现进修分层规划、分层表示，能够像人脑那样针对手头的各种不同情况进行配置以前，至少需求十年时间甚至更长，因为有不少问题我们现在还没有看到，我们还没有遇到，所以我们不知道在这个框架内是否有简单的解决方案。

在过去的十几年，我一直听到有人声称 AGI 指日可待，但他们都错了。

智商可以衡量人类的一些用具，但因为人类的形式相对统一。但是，它只能衡量一种能力，而这种能力大概与某些任务相关，但与其他任务无关。但如果你说的是其他智能实体，对它们来说很容易做到的基本事情却截然不同，那么它就没有任何意义了。因此，智能是一种技能的集合，也是一种高效获取新技能的能力。一个特定的智能实体所失去或能够快速进修的技能集合与另一个智能实体的技能集合是不同的。因为这是一个多维度的用具，技能集合是一个高维空间，你没法测量，也没法比较两个用具是否一个比另一个更聪明。它是多维的。

Lex Fridman：你经常反对所谓的人工智能末日论者，解释一下他们的观点以及你认为他们错误的原因。

Yann LeCun：人工智能末日论者想象了各种灾难场景，人工智能如何逃脱或控制并基本上杀死我们一起人，这依赖于一大堆假设，而这些假设大多是错误的。

第一个假设是，超级智能的出现将是一个事件，在某个时刻，我们会发现其中的秘密，我们会打开一台超级智能的机器，因为我们以前从未这样做过，所以它会占领天下，杀死我们一起人。这是错误的。这不会是一个事件。

我们将失去像猫一样聪明的体系，它们具有人类智能的一起特征，但它们的智能水平大概像猫或鹦鹉之类。然后，我们再逐步提高它们的智能水平。在让它们变得更聪明的同时，我们也要在它们身上设置一些防护栏，并进修如何设置防护栏，让它们表现得更加正常。

在自然界中，似乎更聪明的物种最终会统治另一个物种，甚至有时是有意为之，有时只是因为错误而区分其他物种。

所以你会想：「好吧，如果人工智能体系比我们更聪明，肯定会消灭我们，如果不是故意的，只是因为他们不关心我们，」这是荒谬的 —— 第一个原因是它们不会成为与我们竞争的物种，不会有主宰的欲望，因为主宰的欲望必须是智能体系中固有的用具。它在人类身上是根深蒂固的，狒狒、黑猩猩、狼都有这种欲望，但在猩猩身上却没有。这种支配、服从或以其他方式获得地位的欲望是社会性物种所特有的。像猩猩这样的非社会性物种就没有这种欲望，而且它们和我们一样聪明。

人形机器人

Lex Fridman：你认为很快就会有数以百万计的人形机器人四处走动吗？

Yann LeCun：不会很快，但一定会发生。

未来十年，我认为机器人行业将非常有趣，机器人行业的兴起已经等待了 10 年、20 年，除了预编程行为和诸如此类的用具外，并没有真正出现。主要问题还是莫拉维克悖论，我们如何让这些体系理解天下是如何运作的，并计划行动？这样，我们才能完成真正专业的任务。波士顿动力的做法基本上是通过大量手工制作的动态模型和事先的精心策划，这是非常经典的机器人技术，其中包含大量创新和一点点感知，但这仍然不够，他们没法制造出家用机器人。

此外，我们离完全自主的 L5 驾驶还有一定距离，比如一个可以像 17 岁孩子一样通过 20 小时的驾驶来训练自己的体系。

因此，在失去天下模型、能够自训练以了解天下如何运作的体系以前，我们不会在机器人技术方面取得重大进展。

{{userData.name}}已认证

LeCun最新专访：为什么物理天下终将成为LLM的「死穴」？

用AI短视频「反哺」长视频了解，腾讯MovieLLM框架瞄准影戏级连续帧生成

基于DiT，支持4K图象生成，华为诺亚0.6B文生图模型PixArt-Σ来了

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

ChatGPT遇到这些人名开始自闭，OpenAI回应了

平安人寿ChatBI：大模型智能化报表的深度实践

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！