Hinton万字访谈：用更大模型「预计下一个词」值得全力以赴

「这份访谈的每一秒都是精华。」最近，图灵奖得主 Geoffrey Hinton 的一个访谈视频得到了网友的高度评价。视频链接：，Hinton 谈到了许多话题，包括当前大模型的技术路线、多模态进修的重要性、数字计算与共享学问、智能系统的意识与情感以及他的合作者和优秀学生……Hinton 觉得，大型说话模型通过寻找不同领域的共同结构来进行编码，这类能力使它们能够压缩信息并形成深层次的明白，发现现实世界中人类尚未发现的万事万物的联系，这是创造力的来源。他还提到，通过预计下一个标记，模型实际上必须执行一定程度的推理，而不

「这份访谈的每一秒都是精华。」最近，图灵奖得主 Geoffrey Hinton 的一个访谈视频得到了网友的高度评价。

视频链接：https://www.youtube.com/watch?v=tP-4njhyGvo&t=660s

在访谈中，Hinton 谈到了许多话题，包括当前大模型的技术路线、多模态进修的重要性、数字计算与共享学问、智能系统的意识与情感以及他的合作者和优秀学生……

Hinton 觉得，大型说话模型通过寻找不同领域的共同结构来进行编码，这类能力使它们能够压缩信息并形成深层次的明白，发现现实世界中人类尚未发现的万事万物的联系，这是创造力的来源。他还提到，通过预计下一个标记，模型实际上必须执行一定程度的推理，而不是像许多人所说的大模型并不具备推理能力。随着模型规模的增加，这类推理能力也将变得越来越强。这是一个值得全力以赴的方向。

在回忆和 Ilya 的师生合作时，Hinton 提到，Ilya 拥有很好的直观。他很早就预见到，增大模型的规模是有用的，尽管当时 Hinton 并不看好这个设法。事实证明，Ilya 的直观是很准的。

Hinton万字访谈：用更大模型「预计下一个词」值得全力以赴

整个访谈时间跨度比较大，为了方便梳理故事背景，我们可以先回顾一下 Hinton 的职业生涯：

1947 年 12 月 6 日，Hinton 出生于英国温布尔登。

1970 年，获得剑桥大学实验心理学学士学位。

1976 年 —1978 年，担任苏塞克斯大学认知科学研讨项目研讨员。

1978 年，获得爱丁堡大学人工智能学博士学位。

1978 年 —1980 年，担任加州大学圣地亚哥分校认知科学系访问学者。

1980 年 —1982 年，担任英国剑桥 MRC 应用心理学部科学管理人员。

1982 年 —1987 年，历任卡内基梅隆大学计算机科学系助理教授、副教授。

1987 年 —1998 年，担任多伦多大学计算机科学系教授。

1996 年，当选为加拿大皇家学会院士。

1998 年，当选为英国皇家学会院士。

1998 年 —2001 年，担任伦敦大学学院盖茨比计算神经科学部创始主任。

2001 年 —2014 年，担任多伦多大学计算机科学系教授。

2003 年，当选为认知科学学会会士。

2013 年 —2016 年，担任谷歌杰出研讨员。

2016 年 —2023 年，担任谷歌副总裁兼工程研讨员。

2023 年，从谷歌辞职。

以下是访谈内容： Hinton万字访谈：用更大模型「预计下一个词」值得全力以赴

起点：明白大脑的事务体例

Hinton：我还记得我第一次从英国到卡内基梅隆大学的时候。在英国的研讨机构，大家到了 6 点都会去酒吧喝一杯。但到了卡内基梅隆，几周后的一个周六晚上，那时我还没有任何朋友，也不知道该做什么，所以我决定去实验室编程。因为我有一台列表机（list machine），这个东西不能在家编程。所以我在周六晚上大约 9 点钟去了实验室，结果里面挤满了人，所有的学生都在那儿。他们之所以这样，是因为他们所做的事情代表未来。他们都相信，他们接下来做的事情将改变计算机科学的进程。这与英国的情况极度不同，极度令人耳目一新。

Hellermark：我们回到起点 —— 剑桥时期的你。当时，你试图明白大脑的事务体例，那时是什么情况？

Hinton：那是段极度令人失望的时光。我当时主要研讨生理学。在夏季学期，他们要教我们大脑是如何事务的。他们教的只是神经元如何传导动作电位，这极度有趣，但它并没有告诉你大脑是如何事务的。所以那极度令人失望。随后，我转向了哲学。那时的设法是，也许哲学会告诉我们思维是如何事务的。结果同样令人失望。我最终去了爱丁堡大学进修人工智能，那更有趣。至少你可以模拟东西，这样你就可以测试理论了。

Hellermark：你还记得是什么让你对 AI 产生了兴趣吗？是读了某篇论文吗？还是某个特定的人向你介绍了这些设法？

Hinton：我想是 Donald Hebb（加拿大心理学家，认知心理生理学的开创者）写的一本书对我产生了很大影响。他对如何在神经网络中进修连接强度极度感兴趣。我还读了冯・诺依曼（计算机之父）的书，他对大脑如何计算以及它与普通计算机有何不同极度感兴趣。

Hellermark：在爱丁堡的那些日子里，你有没有一种信念，觉得这些设法会成功？或者你当时的直观是什么？

Hinton：在我看来，大脑肯定有一种进修的体例。大脑的进修并非依靠将各种事物预设编程，然后运用逻辑推理规则 —— 这类做法从一开始就显得过于疯狂。因此，我们必须解开大脑是如何学会调整神经网络中的连接，使其能够处理复杂事物的谜团。对于冯・诺依曼和图灵来说也是如此。冯・诺依曼和图灵都极度擅长逻辑，但他们不相信这类逻辑方法。

Hellermark：你是如何将研讨神经科学的设法与只是做那些看起来不错的人工智能算法区分开来的？你在早期获得了多少灵感？

Hinton：我并没有在神经科学上做太多研讨。我总是受到我对大脑事务原理的启发，那里有一堆神经元，它们执行相对简单的操作。它们是非线性的，但它们收集输入，加权这些输入，然后输出取决于那些加权输入。课题是，你如何改变这些权重，让整个系统做出一些好的事情。这看起来像是一个相当简单的课题。

Hellermark：你还记得那时的合作者吗？

Hinton：我在卡内基梅隆的主要合作对象并不是卡内基梅隆的人。我与在巴尔的摩约翰・霍普金斯大学的 Terrence Sejnowski 有许多互动。大约每月一次，要么他开车去匹兹堡，要么我开车去巴尔的摩。两地距离 250 英里（约 402 公里）。我们会一起度过一个周末，一起在巴尔的摩的机器上事务。那是一次很棒的合作。我们都相信那就是大脑的事务体例。那是我所做过的最令人兴奋的研讨，产出了许多技术上极度有趣的结果，但我觉得那不是大脑的事务体例。

Hinton万字访谈：用更大模型「预计下一个词」值得全力以赴

我还与 Peter Brown 有很好的合作，他是一位极度优秀的统计学家，在 IBM 事务，研讨语音识别。他是作为一名成熟的学生来到卡内基梅隆的，为了拿到博士学位。其实他已经懂得许多了。他教了我许多关于语音的学问，教了我隐马尔可夫模型。我觉得我从他那里学到的比他从我这里学到的要多。这就是大家都想要的那种学生。当他教我隐马尔可夫模型时，我正在用隐藏层做反向传播。那时它还不叫隐藏层。我觉得马尔可夫模型中运用的这个名字对于那些你不知道它们在干什么的变量来说是一个很好的名字。所以这就是神经网络中「隐藏层」名字的由来。

Hinton万字访谈：用更大模型「预计下一个词」值得全力以赴

谈 Ilya：他有很好的直观

Hellermark：带我们回忆一下 Ilya 出现在你办公室的时候。

Hinton：那可能是一个周日，我在编程，然后有人敲门。不是随便的敲，而是有点急切的那种。然后我去开门，门口站着一个年轻的学生。他说他整个夏天都在炸薯条，但他更愿意在我的实验室事务。我说，你为什么不预约一下，我们再谈谈？然后 Ilya 说，「现在谈怎么样？」这就是 Ilya 的性格。

我们聊了一会儿，我给了他一篇论文，那是发表在 Nature 上的反向传播的论文。我们又安排了一周后的另一次会议。他回来说他没明白，我极度失望。我以为他看起来是个聪明人。我给他的论文只涉及链式法则，不难明白。结果他说，「不，我明白了那部分。我只是不明白你为什么不把梯度给一个合理的函数优化器」。这个课题让我们思考了好几年。Ilya 就是这样，他有很好的直观，他的设法总是很好。

Hellermark：你觉得是什么让 Ilya 有了那些直观？

Hinton：我不知道。他总是自己思考。他从小就对 AI 感兴趣，还擅长数学。

Hellermark：你们两个之间是怎么合作的？你扮演了什么角色，Ilya 扮演了什么角色？

Hinton：跟他合作极度有趣。我记得有一次我们试图用一种复杂的方法制作数据图，我有一种混合模型，你可以用同样的一组相似性制作两张图。这样在一张图上，银行可能离绿地很近，在另一张图上，银行可能离河流很近。因为在一张图上，你不能让它同时离两者都很近，对吧？因为河流和绿地距离很远。

我们用 MATLAB 做这件事，这涉及到大量的代码重组，以进行正确的矩阵乘法。然后他厌烦了。所以有一天，他说，「我要去为 MATLAB 写一个接口。我要用这类不同的说话编程，我有一些东西可以将其转换为 MATLAB。」我说，「不，Ilya，那将花费你一个月的时间。我们必须继续这个项目。不要被那个事情分散注意力。」Ilya 说，「没关系，我今天早上就做好了。」

Hinton万字访谈：用更大模型「预计下一个词」值得全力以赴

Hellermark：太不可思议了。在那些年里，最大的转变不仅仅是算法，还有规模（scale）。这些年来你是如何看待 scale 的？

Hinton：Ilya 很早就有了那种直观。所以 Ilya 总是说，你只要把它做得更大，效果就会更好。我总觉得这有点逃避现实，你也得有新设法。结果，他的直观基本上是正确的。新的设法有帮助。Transformer 之类的东西帮了大忙，但真正的课题在于数据的规模和计算的规模。那时，我们根本不知道计算机会快上 10 亿倍。我们以为也许会快上 100 倍。我们试图通过提出一些聪明的设法来解决课题，但如果我们有更大的数据和计算规模，这些课题就会迎刃而解。

大约 2011 年，Ilya、我和另一个名叫 James Martins 的研讨生，发表了一篇运用字符级预计的论文。我们利用维基百科，尝试预计下一个 HTML 字符。结果效果极度好。我们一直对它的效果感到惊讶。那是在 GPU 上运用了一个花哨的优化器，我们永远无法相信它能明白任何东西，但它看起来好像能明白，这看起来简直不可思议。

「预计下一个词」也需要推理

Hellermark：这些模型是如何预计下一个词的？为什么这是一种差错的思考它们的体例？

Hinton：我并不觉得这是差错的体例。事实上，我觉得我制作了第一个运用嵌入和反向传播的神经网络说话模型。数据极度简单，只是三元组，它将每个标记转换为嵌入，然后让嵌入相互作用以预计下一个标记的嵌入，然后从那预计下一个标记，然后它通过整个过程进行反向传播来进修这些三元组。我展示了它可以泛化.

大约 10 年后，Yoshua Bengio 运用了一个极度类似的网络，并证明它可以处理真实文本。此后大约 10 年，说话学家们开始相信嵌入。这是一个缓慢的过程。

我之所以觉得它不仅仅是预计下一个标记，是因为如果你问，预计下一个标记需要什么？具体来说，如果你问我一个课题，然后答案的第一个词就是下一个标记，你就必须明白这个课题。因此，我觉得预计下一个标记与老式的自动补全功能很不一样。在老式的自动补全功能中，你需要存储三元组单词。然后，如果你看到一对单词，你会看到不同单词出现在第三位的频率，这样你就能预计下一个标记。这就是大多数人觉得的自动补全功能。现在已经完全不是这样了。

为了预计下一个标记，你必须明白所说的话。所以我觉得，通过让它预计下一个标记，你正在迫使它去明白。我觉得这和我们的明白体例是一样的。许多人会告诉你这些东西不像我们，它们只是预计下一个标记，不像我们那样进行推理。但实际上，为了预计下一个标记，它必须进行一些推理。我们现在已经看到了，即使你不加入任何特殊的推理元素，仅仅是制造出大的模型，它们也已经可以进行一些推理了。我想，当你把它们做得更大时，它们就能进行更多的推理。

Hellermark：在你看来，我现在除了预计下一个标记之外还在做什么？

Hinton：我觉得那就是你的进修体例。你在预计下一个视频帧，你在预计下一个声音。但我觉得这是一个相当合理的大脑进修理论。

Hellermark：是什么让这些模型可以学到如此广阔的领域？

Hinton：这些大型说话模型所做的是寻找共同的结构。它们可以运用共同的结构来编码事物，这样更有效率。

举个例子，如果你问 GPT-4，为什么堆肥堆像原子弹？大多数人回答不出来。大多数人没有想过，他们会觉得原子弹和堆肥堆是极度不同的东西。但 GPT-4 会告诉你，它们的能量规模极度不同，时间规模极度不同。但它们的共同点是，当堆肥堆变得更热时，它产生热量的速度更快；当原子弹产生更多的中子时，它产生中子的速度也更快。所以这就得到了连锁反应的概念。我相信它明白这两种连锁反应，它运用这类明白将所有这些信息压缩到它的权重中。如果它确实在这样做，那么它将会对我们还没有看到的所有事物进行同样的操作。这就是创造力的来源 —— 看到这些表面上截然不同的事物之间的类比关系。

Hinton万字访谈：用更大模型「预计下一个词」值得全力以赴

所以我觉得，当 GPT-4 变得更大时，它最终会变得极度有创造力。那种觉得它只是在重复进修过的东西，只是把已经学过的内容粘贴在一起的设法，是完全差错的。它会比人类更有创造力。

Hellermark：你说它不仅仅会重复我们迄今为止所开发的人类学问，还可能取得更大的进步。我觉得我们目前还没有充分看到这一点。我们已经开始看到一些例子，但在更大范围内，它还停留在当前的科学水平。你觉得怎样才能让它超越这个水平？

Hinton：我们在更有限的情况下看到过这类情况。比如在 AlphaGo 和李世石的那场著名比赛中，在第 37 步，AlphaGo 下了一步所有专家都觉得肯定是差错的棋，但后来他们意识到这是一步绝妙的棋。这就是在有限领域内的创造性。我觉得随着模型规模的扩大，我们会看到更多这样的情况。

Hinton万字访谈：用更大模型「预计下一个词」值得全力以赴

Hellermark：AlphaGo 的不同之处在于它运用了强化进修，这使它能够超越当前状态。它从模仿进修开始，观察人类如何下棋，然后通过自我对弈，发展得远远超出了那个水平。你觉得这是标准组件缺失的部分吗？

Hinton：我觉得这可能是缺失的部分。AlphaGo 和 AlphaZero 中的自我对弈是它们能够做出这些创造性举动的很大一部分原因。但我不觉得这是完全必要的。

有一个很久以前的实验，你训练一个神经网络来识别手写数字。我极度喜欢这个例子。你给它的训练数据中有一半的标签是差错的。课题是它能学得多好？而且这些差错标签是固定的，每次看到特定样本时它都与相同的差错标签配对，所以它不能通过多次看到相同样本但标签有时正确有时差错来平均化这些差错。训练数据中有 50% 的差错标签，但如果你用反向传播训练神经网络，它的差错率可以降到 5% 以下。换句话说，即使从标注差错的数据中，它也能得到更好的结果。它能够识别出训练数据中的差错。这就像聪明的学生比他们的导师更聪明。导师告诉他们许多东西，但有一半的信息是差错的，学生能分辨出哪些是错的，只听正确的那一半，最后比导师更聪明。所以这些大规模神经网络实际上能够做到的比它们的训练数据更好，大多数人并没有意识到这一点。

Hellermark：那么你觉得这些模型将如何将推理融入其中呢？我的意思是，一种方法是在模型之上添加启发式方法，现在许多研讨都在这样做，你可以在模型中加入一些思考，将推理反馈给模型本身。另一种体例是扩大模型规模。你的直观是怎么做？

Hinton：我的直观是，随着我们扩大这些模型的规模，它们会变得更擅长推理。如果你问人们是如何事务的，大致说来，我们有这些直观，我们可以运用推理，我们运用推理来纠正我们的直观。当然，在推理过程中我们也会用到直观。但如果推理的结论与我们的直观冲突，我们会意识到需要改变直观。这很像在 AlphaGo 或 AlphaZero 中，你有一个评估函数，它只是看着棋盘说，这对我有多好？但当你进行蒙特卡洛模拟时，你就会得到一个更准确的设法，从而修正你的评估函数。所以你可以训练它，让它同意推理的结果。

我觉得这些大型说话模型必须开始这样做。它们必须开始训练自己的原始直观，通过推理来判断下一步应该做什么，并意识到这是不对的。这样，它们就能获得更多的训练数据，而不仅仅是模仿人们的行为。这正是 AlphaGo 能够构想出这个创造性的第 37 步的原因。它有更多的训练数据，因为它是通过推理来确定下一步应该怎么走的。

模型能从说话中学到许多，但从多模态中进修会更容易

Hellermark：你如何看待多模态？当我们引入图像、视频和声音时，你觉得这将如何改变模型？

Hinton：我觉得这会有很大的改变。我觉得这会让模型在明白空间事物方面做得更好。例如，仅从说话来明白一些空间事物相当困难，尽管令人惊讶的是，即使在成为多模态模型之前，GPT-4 也能做到这一点。但是当 GPT-4 成为多模态模型时，如果你同时让它做视觉和触觉，伸手去抓取东西，它会更了解物体。

所以尽管你可以从说话中学到许多东西，但如果是多模态，进修会更容易。实际上，你需要的说话就更少了。例如，有许多 YouTube 视频可以预计下一个画面。所以我觉得多模态模型显然会占据主导地位。这可以获得更多数据，需要的说话会更少。所以这是一个哲学观念，你可以仅从说话中学到一个很好的模型，但从多模态系统中学到它要容易得多。

Hellermark：你觉得这将如何影响模型的推理？

Hinton：我觉得这会让模型在空间推理方面做得更好。例如，关于如果拿起物体会发生什么的推理。如果真的尝试拿起物体，你会得到各种各样的训练数据。

关于「认知」的三种观念

Hellermark：你觉得人类大脑进化到能够很好地运用说话，还是说话进化到能够很好地与人类大脑配合？

Hinton：关于说话是否进化到与大脑配合，或者大脑是否进化到与说话配合的课题，我觉得这是一个极度好的课题。我觉得两者都发生了。

我曾经觉得我们会在根本不需要说话的情况下进行许多认知活动，但现在我改变主意了。我举三种关于说话以及它与认知的关系的观念。

第一种，老式象征性观念，即认知由一些清理过的逻辑说话中的标记字符串组成，没有歧义，且应用推理规则。因此认知只是对像说话标记字符串这样的东西进行标记操作。这是一种极端观念。

另一种极端观念是：一旦进入大脑内部，一切都是向量。标记进来，你将这些标记转换为大型向量，所有的洞察都是用大型向量完成的。如果你想产生输出，你将再次产生标记。所以在 2014 年的机器翻译中有一个时刻，人们运用循环神经网络，单词会不断进来，它们会有一个隐藏状态，并在这个隐藏状态中不断累积信息。所以当到达句子的结尾时，就有一个大的隐藏向量，捕捉了句子的含义。然后它可以用来产生另一种说话中的单词，这被称为思维向量。这是关于说话的第二种观念。

还有第三种观念，也是我现在相信的，即大脑将这些标记转换为嵌入，并运用多层嵌入。所以你将得到极度丰富的嵌入。但嵌入仍然与标记相关联，从这个意义上讲，标记有其对应的大向量。这些向量相互作用产生下一个词的标记的向量。因此明白是指知道如何将标记转换为向量，以及向量的元素如何相互作用以预计下一个标记的向量。这就是大型说话模型以及我们的大脑中的明白体例。你保留标记，但将其解释为大向量。所有的事务以及所有的学问都在于运用哪些向量以及这些向量的元素如何相互作用，而不是在标记规则中。但这并不是说你完全摆脱了标记，而是说将标记转换为大向量，但保留标记的表面结构。这就是大型说话模型的运作体例。现在我觉得这似乎也是人类思维一个更合理的模型。

「黄仁勋送了我一块 GPU」

Hellermark：您是最早想到运用 GPU 的人之一。我知道 Jensen（黄仁勋）因此而爱您。早在 2009 年，您就提到您告诉 Jensen，运用 GPU 对于训练神经网络来说可能是一个极度好的主意。

Hinton：实际上，2006 年左右，我有一个名叫 Richard Szeliski 的研讨生。他是一个极度优秀的计算机视觉专家。我在一次会议上和他讨论，他说应该考虑运用图形处理单元，因为它们极度擅长矩阵乘法，而您所做的事情基本上就是矩阵乘法。

所以我思考了一段时间。然后我们了解到 Tesla 系统配有四个 GPU。最初我们尝试运用游戏 GPU，发现它们使运行速度快了 30 倍。然后我们买了一个带有四个 GPU 的 Tesla 系统，我们在它上面做了语音处理，效果极度好。

然后在 2009 年，我在 NIPS 上做了一个演讲，我告诉 1000 名机器进修研讨人员，你们都应该去买英伟达的 GPU。GPU 是未来。你们需要 GPU 来进行机器进修。然后我实际上给英伟达发了邮件，说我告诉了 1000 名机器进修研讨人员去买你们的产品，你们能免费送我一个吗？他们没有说不。实际上，他们没有回复。但后来当我告诉 Jensen 这个故事时，他免费送给我一个。

Hinton万字访谈：用更大模型「预计下一个词」值得全力以赴

数字系统有人类无法比拟的优势

Hellermark：那太好了。我觉得有趣的是 GPU 的演变与这个领域的发展是同步的。你觉得我们接下来在计算方面应该走向何方？

Hinton：我在谷歌的最后几年，我一直在思考如何尝试进行模拟计算。即不是运用像一兆瓦这样庞大的电力，而是运用像大脑一样的 30 瓦电力，就可以在模拟硬件中运行大型说话模型。

这一点我从未实现过。但我开始真正欣赏数字计算。如果你要运用低功耗模拟计算，每个硬件都会有所不同，要利用硬件的特定属性。这就是发生在人类身上的事情。我们所有人的大脑都不同，所以我们不能把你大脑中的权重拿出来放进我的大脑。硬件是不同的。单个神经元的确切属性是不同的。

当我们去世后，我们的学问和经验大部分会随之消失，因为人类传递学问的体例通常涉及说话交流，这类体例相对效率较低。然而，数字系统则不同，它们可以通过共享权重（即进修过的数据和参数）来传递学问。一旦一个数字系统进修了某些学问，这些权重就可以被保存并在其他任何相同配置的系统中重用。这类体例不仅保证了学问的精确复制，还极大提高了进修和学问共享的效率。因此，数字系统在共享和扩散学问方面，具有远超人类的能力。

需要得到重视的快速权重

Hellermark：许多已经在实际应用中部署的人工智能系统的理念源于早期的神经科学理论，这些理念已经存在了很长时间。现在的课题是，还有哪些未被充分利用的神经科学理论可以应用到我们开发的系统中？这需要我们探索神经科学中的未被充分挖掘的理论，将它们转化为技术，以推动人工智能技术的进一步发展。

Hinton：在人工智能与神经科学的对比中，一个我们仍需追赶的重要方面是变化的时间尺度。在几乎所有的神经网络中，都存在快速时间尺度的活动变化 —— 输入数据后，嵌入向量会发生变化。而另一种是慢速时间尺度，即权重的变化，这关系到长期进修。在大脑中也有这两个时间尺度。

例如，如果我突然说出一个意外的词，比如黄瓜，五分钟后你戴上耳机，在嘈杂的环境中，如果有很轻微的话语声，你会更容易识别出黄瓜这个词，因为我五分钟前说过它了。那么这个学问存储在哪里呢？在大脑中。这类认知显然是暂时性的突触改变所保存的，而不是特定的神经元来保存 —— 我们的大脑中并没有足够多的神经元来做这类事。这类暂时性的权重改变，我称之为快速权重，在我们目前的神经模型中并没有应用。

我们之所以没有在模型中运用快速权重，是因为如果权重的暂时性变化依赖于输入数据，那么我们就无法同时处理多种不同的情况。目前，我们通常会将多种不同的数据批量堆叠在一起，并行处理，因为这样可以进行矩阵乘法，效率更高。正是这类效率的需求阻碍了我们运用快速权重。然而，大脑明显利用快速权重来进行临时记忆存储，并且可以通过这类体例实现许多我们目前未能做到的功能。

我曾对像 GraphCore（一家英国半导体公司，开发人工智能和机器进修加速器，它引入了大规模并行智能处理单元，在处理器内保存完整的机器进修模型）这样的技术抱有很大希望，如果它们采取序列体例并只进行在线进修，那么它们就能运用快速权重。但这类方法尚未取得成功。我觉得，当人们开始运用导电性（conductances）作为权重时，这类方法最终会取得成功。

乔姆斯基的部分理论是无稽之谈

Hellermark：了解这些模型的事务原理以及大脑的事务原理对你的思考体例有何影响？

Hinton：我觉得有很大的影响，这是一个相当抽象的水平。一直以来，在 AI 领域，曾经有一个广泛的观念觉得，仅仅依赖大量训练数据让一个庞大的随机神经网络去进修复杂事物是不可能的。如果你和统计学家、说话学家或大多数人工智能领域的人交流，他们会说这只是一个白日梦，觉得没有大规模的架构，就无法进修到真正复杂的学问。

但实际情况完全颠覆了这类观念。事实证明，你可以通过大量数据训练一个庞大的随机神经网络，利用随机梯度下降方法不断调整权重，从而进修到复杂的事物。这一发现对我们明白大脑的结构具有重要意义，表明大脑并不需要天生就具有所有的结构性学问。当然，大脑确实具有许多先天结构，但它显然不需要依赖这些结构来进修那些容易获得的学问。

这类观念也挑战了乔姆斯基的说话学理论，即复杂的说话进修必须依赖于先天就编织在大脑中的结构，并且要等待这类结构成熟。这类设法现在显然是无稽之谈。

Hellermark：我相信乔姆斯基会感谢你称他的观念为无稽之谈。

Hinton万字访谈：用更大模型「预计下一个词」值得全力以赴

智能系统也能拥有情感

Hellermark：你觉得要使这些模型更有效地模拟人类的意识，需要做些什么？

Hinton：我觉得它们也可以出现情感（feeling）。我们常常倾向于运用「内部剧场模型」来解释感知（perception）和情感。比如我说我想打 Gary 的鼻子，让我们试着把它从内部剧场模型的概念中抽象出来。这通常被解释为一种内部情感体验。然而，这类模型可能并不准确。实际上，当我表达这类情感时，我的真实意图是，如果不是因为我的前额叶的抑制作用，我可能真的会采取这样的行动。因此，所谓的情感，实际上是我们在没有限制的情况下可能会采取的行动。

事实上，这些感觉并非人类独有，机器人或其他智能系统也有可能体验情感。例如，1973 年在爱丁堡，我见过一个机器人表现出情感。这个机器人有两个抓手，可以在绿色毛毡上组装玩具汽车，只要将零件分开放置。但如果你把零件堆在一起，由于它的视觉系统不够好，无法分辨情况，它会显得困惑并将零件击散，然后再进行组装。如果这类行为发生在人类身上，我们可能会觉得他因为不明白情况而感到恼怒，并因此摧毁了它。

Hellermark：这让人印象深刻。你之前说过，你将人类和大型说话模型描述为类比机器（analogy machines）。你觉得你一生中发现的最有力的类比是什么？

Hinton：在我的一生中，一个对我影响很大的、虽然有些牵强的类比是宗教信仰与标记处理之间的相似性。我出生在一个无神论家庭，当我还很小的时候，上学时首次接触到宗教信仰，对我来说那完全是无稽之谈，直到现在我仍然这么觉得。当我了解到标记处理被用来解释人们的行为时，我觉得这和宗教信仰一样荒谬。但现在我不再觉得它完全是无稽之谈，因为我确实觉得我们进行了标记处理，只不过我们是通过为这些标记赋予嵌入向量来处理的。但我们实际上是在进行标记处理，只是体例与人们原本想象的完全不同。人们曾觉得标记处理只是简单地匹配标记，一个标记只有一个属性：要么与另一个标记相同，要么不相同。我们根本不是这样做的。我们利用上下文为标记提供嵌入向量，然后利用这些嵌入向量的组件之间的相互作用来进行思考。

但谷歌有一位极度优秀的研讨人员，名叫 Fernando Pereira，他曾表示我们确实有标记推理。我们拥有的唯一标记是自然说话。自然说话是一种标记说话，我们用它进行推理。我现在相信了。

对于课题保持怀疑，然后证明它

Hellermark：你已经完成了计算机科学史上一些最有意义的研讨。能否向我们介绍一下，例如，如何挑选正确的课题进行研讨？

Hinton：我和我的学生做了许多最有意义的事情。这主要归功于与学生的良好合作以及我挑选优秀学生的能力。这是因为在上世纪 70 年代、80 年代、90 年代以及进入 21 世纪，很少有人研讨神经网络。所以从事神经网络研讨的少数人能够挑选到最优秀的学生，还需要依靠一点运气。

但我挑选研讨课题的体例基本上是这样的：你知道，当科学家谈论他们的事务体例时，他们会有一些关于事务体例的理论，这些理论可能与事实并无太大关联。但我的理论是，我会寻找一个大家都认同的观念，但感觉上似乎有些不对劲的地方。通常是有一种微妙的直观，觉得某处有课题，只是有一点点感觉不对劲。然后我就会研讨这个课题，试图详细解释为什么它是差错的。也许我能用一个小型计算机程序做一个小演示，显示它的事务体例并不像你可能预期的那样。

让我举一个例子。大多数人觉得，如果你给神经网络添加噪声，它的效果会变差。实际上，我们知道如果这样做，它的泛化能力会更好。这可以通过一个简单的例子来证明，这就是计算机模拟的好处。你可以展示你原先的设法 —— 添加噪声会使效果变差，让一半的神经元停止事务会使其效果变差 —— 在短期内确实如此。但如果你像这样训练它，最终它的效果会更好。你可以通过一个小型计算机程序来演示这一点，然后你可以仔细思考为什么会这样。这就是我的事务方法：找到一个听起来可疑的东西，然后研讨它，看看你是否能用一个简单的演示来说明它为什么是差错的。

Hinton 想继续研讨的未解之谜：大脑运作体例

Hellermark：最近，什么东西引起了你的怀疑？

Hinton：我们不运用快速权重，这看起来有些课题。我们只有这两种时间尺度，这显然是差错的。这与大脑的运作体例完全不同。从长远来看，我觉得我们将需要更多的时间尺度。

Hellermark：如果你现在带领一组学生，他们来找你，说到我们之前讨论过的课题，你所在的领域中最重要的课题是什么？你会建议他们接下来研讨并事务什么？我们谈到了推理的时间尺度。你建议的最优先的课题是什么？

Hinton：对我来说，现在的课题和我过去大约 30 年一直关注的课题相同，那就是大脑是否进行反向传播？我相信大脑在获取梯度。如果你没有获取到梯度，你的进修效果会比获取到梯度时差许多。但大脑是如何获取梯度的？它是否在实现某种近似版本的反向传播，或者是采用了一种完全不同的技术？这是一个很大的未解之谜。如果我继续从事研讨，这就是我将要研讨的内容。

Hellermark：当你现在回顾你的职业生涯时，你在许多事情上都是正确的。但假如当时用很少的时间来决定的方向后来被证明是差错的？

Hinton：这里有两个单独的课题。1、你做错了什么？2、你希望自己少花点时间吗？我觉得我对玻尔兹曼机的看法是差错的，我很高兴我在它上面花了很长时间。关于如何获得梯度，有比反向传播更美丽的理论，它只是普通且合理的，它只是一个章节。这两个机制都很聪明，这是一种极度有趣的获取梯度的方法。我希望大脑是这样运作的，但我觉得事实并非如此。

Hellermark：您是否花了许多时间想象系统开发后会发生什么？如果我们能让这些系统运行得很好，我们就可以实现教育的民主化，我们可以让学问更容易获得，我们可以解决医学上的一些棘手课题。或者对你来说更重要的是了解大脑运行的机制？

Hinton：是的，我确实觉得科学家应该做那些能帮助社会的事情。但实际上，这不是你做出最好的研讨的体例。当你的研讨被好奇心驱动时，你才能做出最好的研讨。你只需要明白一些事情。更近地，我意识到这些东西可能会造成许多伤害，也会带来许多好处。我变得更加关注它们对社会的影响。但这不是动机。我只想知道大脑是如何学会做事的？那就是我想知道的。而我在试错的过程中，我们得到了一些不错的工程结果。

Hellermark：是的，这对世界来说是一个有益的失败。如果从可能带来巨大正面影响的角度来看，你觉得最有前景的应用是什么？

Hinton：我觉得医疗保健显然是一个大领域。在医疗方面，社会可以吸收的数量几乎没有限制。对一个老人来说，他们可能需要全职的五位医生。所以当 AI 在做事上比人类更好时，你会希望你在这些领域出现更多的资源 —— 如果每个人都有三位医生，那就太好了。我们将达到那个地步。

还有新的工程，开发新材料，例如更好的太阳能电池板、室温超导或仅仅是明白身体的事务原理。这些都会有很大的影响力。我担心的是坏人利用它们做坏事。

Hellermark：你有没有担心过，放慢这个领域的发展速度也可能会放慢积极的一面？

Hinton：当然。我觉得这个领域不太可能放慢速度，部分原因是它是国际性的。如果一个国家放慢速度，其他国家不会放慢速度。之前有一个提议说我们应该暂停大模型研讨六个月。我没有签名，因为我觉得这永远不会发生。我可能应该签字，因为即使它永远不会发生，它也表明了一个观念。有时为了表明立场而运用它也是好事。但我不觉得我们会放慢速度。

Hellermark：你觉得拥有（ChatGPT）这样的助手将如何影响 AI 研讨过程？

Hinton：我觉得它将使 AI 研讨变得更加高效。当你有这些助手来帮助你编程，也帮助你思考课题，可能会在方程式上帮助你许多。

挑选学生，更看重直观

Hellermark：你有没有深思熟虑过选择人才的过程？这对你来说大多是凭直观的吗？就像当 Ilya Sutskever 出现在门口时，你会觉得「这是一个聪明人，让我们一起事务吧」。

Hinton：对于选择人才，有时候是很明显的。在交谈后不久，你就能看出他极度聪明。进一步交谈你会发现，他显然极度聪明，并且在数学上有很好的直观。所以这是轻而易举的。

还有一次我在 NIPS 会议上，我们有一个 Poster，有人走过来问我们关于 Poster 的课题。他问的每个课题都是对我们做错了什么的深刻洞察。五分钟后，我给了他一个博士后职位。那个人是 David McKay，他极度聪明。他去世了，这极度令人难过，但他显然是你想要的那种人。

Hinton万字访谈：用更大模型「预计下一个词」值得全力以赴

其他时候就不那么明显了。我学到的一件事是，人是不同的。不仅仅有一种类型的好学生。有些学生可能不那么有创造力，但从技术角度来看极度强大，可以让任何事情都运转起来。还有一些学生技术上不那么强，但极度有创造力。当然，你想要的是两者兼备的人，但你并不总是能得到。但我觉得实际上在实验室里，你需要各种不同类型的研讨生。但我还是跟着我的直观走，有时你和某人交谈，他们真的极度聪明，他们就是能跟得上思路，那就是你想要的人。

Hellermark：你觉得你对有些人有更好的直观的原因是什么？或者说你如何培养你的直观？

Hinton：我觉得部分原因是，他们不会接受无意义的东西。有个获得糟糕直观的方法，那就是相信你被告知的一切，那太致命了。你必须能够… 我觉得有些人是这样做的，他们对明白现实有一个完整的框架。当有人告诉他们某些事情时，他们会试图弄清楚这如何适应他们的框架。如果不适合，他们就拒绝它。这是一个极度好的策略。

试图吸收他们被告知的一切的人最终会得到一个极度模糊的框架。他们可以相信一切，那是没有用的。所以我觉得实际上拥有一个对世界的坚定观念，并试图整合输入的事实以适应你的观念，这可能会导致深刻的宗教信仰和致命的缺陷等等，像我对玻尔兹曼机的信念，但我觉得这是正确的。

如果你有可靠的好直观，你应该信任它们。如果你的直观不好，怎么做都没用了。所以你不妨信任它们。

全力以赴，用多模态数据训练更大的模型

Hellermark：这是一个极度好的观念。当你看正在进行的研讨类型时，你觉得我们是不是在把所有的鸡蛋放在一个篮子里。我们是否应该在领域内更多样化我们的设法？还是说你觉得这是最有希望的方向，所以我们应该全力以赴？

Hinton：我觉得拥有大型模型并在多模态数据上训练它们，即使只是为了预计下一个词，这是一个极度有希望的方法，我们应该全力以赴。显然，现在有许多人在做这件事，还有许多人在做一些看似疯狂的事情，这是好事。但我觉得让大多数人走这条路是没课题的，因为它运作得极度好。

Hellermark：你觉得进修算法真的那么重要吗，还是说规模更重要？是否有数百万种方法可以让我们达到人类级别的智能，还是有一些我们需要发现的特定方法？

Hinton：是的，关于特定的进修算法是否极度重要，是否有许多进修算法可以完成这项事务，我不知道答案。但在我看来，反向传播在某种意义上是正确的事情。获得梯度，这样你就可以改变参数让它事务得更好，这似乎是正确的事情，而且它取得了惊人的成功。可能还有其他的进修算法，它们以不同的体例获得相同的梯度，并且也能事务。我觉得这都是开放的，并且是一个极度有趣的课题，即是否有其他你可以试图最大化的东西，会给你好的系统。也许大脑正在这样做，因为它很容易。反向传播在某种意义上是正确的事情，我们知道这样做极度有效。

一生最自豪的成就：玻尔兹曼机的进修算法

Hellermark：最后一个课题。回顾你几十年的研讨，你最自豪的是什么？是学生？还是研讨？

Hinton：玻尔兹曼机的进修算法。它极度优雅，可能在实践中没有希望，但这是我最享受的事情，我与 Terry 一起开发了它，这是我最自豪的，即使它是差错的。

Hinton万字访谈：用更大模型「预计下一个词」值得全力以赴

论文链接：https://www.cs.toronto.edu/~fritz/absps/cogscibm.pdf

Hellermark：你现在花最多时间思考的课题是什么？

Hinton：在 Netflix 上下个剧该看什么。

{{userData.name}}已认证

Hinton万字访谈：用更大模型「预计下一个词」值得全力以赴

第三波！2024年5月精选实用安排东西合集

微软颠覆生产力：Copilot推自定义版，AI PC原生支撑PyTorch，奥特曼预告新模型

设计素材不用愁！10 组高质量中秋节主题 Midjourney 提示词

全球首个「智能体文明」诞生！一千个智能体在「我的世界」自由发展

AI 被连续否定 30 次：ChatGPT 越改越错，Claude 坚持自我，甚至已读不回

顺丰发布“丰语”大语言模型：摘要准确率超 95%，号称物流垂域能力超越通用模型

研究：反复使用 AI 生成的内容来训练 AI 可造成“模型崩溃”

用60%成本干80%的事，DeepSeek分享沉淀多年的高性能深度学习架构

一只AI吗喽，单挑《黑神话》，歇菜1000次，终于击败首个Boss

夸克发布全新 CueMe 智能对话助手，支持上千种体裁、2 万字长文