自己称赞自己千句,不如别人称赞你一句。
例如马斯克在播客、推特上经常自称特斯拉的自动驾驶和机器人“天下第一”,但这样的话看多了,难免也有些审美疲劳。不过,前几天,Andrej Karpathy在No Priors播客中现身,透露了特斯拉在Optimus人形机器人和自动驾驶领域的一些鲜为人知的进展。
Karpathy曾追随马斯克,从OpenAI转战特斯拉,从无到有亲手打造了特斯拉的计算机视觉团队。
然而,随着团队逐渐壮大,他的角色也从技术专家转为管理者,这与他专注技术工作的初衷相违背。对于Karpathy来说,从头开始构建事物才是他热爱和擅长的事情。因此,他不得不做出“艰难的决定”,在团队成长到足够自主的同时遗憾地告别了特斯拉。
去年,Karpathy重返OpenAI,但不久后又因为相似的原因离开。今年七月,他创立了自己的初创公司Eureka Labs,致力于将AI与教育相结合。
Karpathy的离职推文:“离开OpenAI没有什么特别原因,计划开展个人项目,但请继续提出阴谋论因为那很有趣。”
尽管如此,Karpathy对特斯拉的情感依旧深厚。他在访谈中公开表示对特斯拉在AGI、机器人以及自动驾驶领域的赞赏,并透露了未来可能重返特斯拉的意愿。
在这期播客节目中,Karpathy不止分享了过去在特斯拉收获的有关自动驾驶和人形机器人的思考,还有他对Scaling Law和AI发展的理解以及对AI教育的展望。
在谈到自动驾驶时,Karpathy回忆起自己十年前第一次体验Waymo的自动驾驶的经历,那时Waymo在街区的表现已经非常接近完美。经过十年的发展,这项技术终于从demo演变成了真正的商业产品。
Karpathy认为现在的自动驾驶其实已经达到了类似AGI的水平,只是受限于技术和监管,全球范围内的全面普及仍然是个难题。
Karpathy还把Waymo和特斯拉做了比较,非常有信心地肯定了特斯拉的自动驾驶技术。他透露,自己刚体验了特斯拉的最新版本,感受非常惊艳,对其表现非常满意。
在人形机器人方面,Karpathy提出了独特的观点。他认为,汽车本质上就是一种机器人。他还提到,在特斯拉早期的Optimus人形机器人开发中,汽车和机器人在硬件、工具以及研究人员方面基本都是共享的。
Karpathy特别分享了对人形设计的思考,他认为保持人形设计是为了更好地集中研究,利用人类最熟悉的姿态来帮助收集和处理数据,同时也使机器人更容易融入人类社会。
至于更深层次的技术方面,Karpathy 谈到了对Scaling Law的理解。
虽然OpenAI以大参数模型而闻名,曾引领了一段时间的大参数模型风潮,但如今主流模型已经转向小参数设计。在Karpathy的Youtube账号,最近一条是三个月前重现GPT-2 124M参数的教学视频,时长4个多小时,这或许也间接反映出Karpathy对Scaling Law的不同看法。
Karpathy 指出,当前AI发展的的瓶颈已经不再是参数和神经网络,而要是数据集的规模和质量。未来的发展将更多依赖合成数据的生成,而合成数据的多样性和“熵”尤为重要。模型输出的多样性如果降低,会导致数据集失去活力。
节目的最后,Karpathy回到了他目前专注的AI教育领域。他相信在AI的帮助下,一对一个性化课程有着巨大的潜力和市场,并透露自己正在筹备一门关于AI的课程,预计会在晚些时候上线。
完整播客视频可以点以下链接观看:
https://www.youtube.com/watch?v=hM_h0UA7upI
AI科技评论摘取了部分播客内容,做了不改原意的精编处理:
自动驾驶
Sarah Guo:你曾在特斯拉领导自动驾驶部门,现在自动驾驶汽车已经可以上路。你认为当前技术处于什么水平?我们需要多长时间才能看到技术的进一步提升或更广泛的普及?
Andrej Karpathy:我在自动驾驶领域工作了大约五年,对这个领域非常了解。我觉得我们现在的自动驾驶技术已经达到了类似AGI的水平。
今天的一些系统已经允许付费用户在城市中使用,尤其是在旧金山,这种情况非常普遍。我个人已经体验过很多次,这些系统真的很神奇,可以将你送到任何地方。
十年前,我第一次体验了Waymo的自动驾驶。当时,我的一位朋友在Waymo工作,他给我展示了一个demo。那时候,Waymo在街区内的驾驶已经非常接近完美。
经过十年的发展,它终于从demo成为了付费产品,并且在城市范围内不断扩展。
Waymo自动驾驶汽车
Elad Gil:你觉得自动驾驶技术的进展主要受到监管还是技术的影响?你认为这项技术何时会真正成熟?
Andrej Karpathy:技术方面,演示和实际应用之间有很大差距。你在短时间的演示中不会遇到他们在过去十年里处理的所有问题。
此外,监管因素也起了重要作用。虽然我们在软件方面已经接近实现AGI,但全球范围的普及还远未实现。演示与全球化之间的差距很大。
虽然很多人认为Waymo领先于特斯拉,但我个人认为特斯拉在自动驾驶领域更具领先优势。虽然目前看起来可能不是这样,但我对特斯拉的自动驾驶项目非常看好。
特斯拉面临的软件问题比Waymo的硬件问题要容易解决得多。特斯拉已经在全球范围内大规模部署了汽车,而Waymo还在努力实现这一目标。一旦特斯拉能够全面实现其技术,并成功部署这些车辆,将会是非常令人惊叹的。
我昨天刚试驾了最新版的特斯拉,感觉他们最近做了很多出色的改进。
Elad Gil:我最近也用过这个系统,感觉确实很棒。
Andrej Karpathy:的确如此。昨天它为我完成了一些非常出色的驾驶任务。我对团队的进展印象深刻。
我还是认为特斯拉面临的主要问题是软件,而Waymo则主要是硬件问题。目前,Waymo在这方面似乎稍占优势。
不过,十年后我们再来看谁真正实现了规模化,并且从中获利,我相信特斯拉会保持领先。
Elad Gil:你认为解决软件问题的关键时刻还远吗?正如你所说,很多汽车使用昂贵的激光雷达和传感器来支持软件系统。特斯拉的方法是只用摄像头,这样可以显著降低成本和复杂性,并能在多种车型上应用。你认为这种转变会在什么时候发生?
Andrej Karpathy:我希望在几年内能看到这种转变。
实际上,有趣的是,特斯拉在训练阶段使用了很多昂贵的传感器。虽然他们在实际部署中主要依靠摄像头,但他们在训练时使用了激光雷达和其他传感器来构建地图和收集数据。这种做法既聪明又有效,因为它利用了传感器的信息来优化软件。
我认为这种策略还没有被充分认识到,但它会非常有效。尽管在训练阶段传感器非常有用,但在实际测试中,摄像头提供的信息已足够支持系统的运行。
Elad Gil:另一种转变是从启发式学习转向端到端的深度学习。你怎么看这个问题?
Andrej Karpathy:是的,特斯拉的策略一直很明确。
最初,特斯拉系统中有很多C++代码,但现在神经网络已经接管了许多功能,C++代码的使用减少了。这表明神经网络逐渐接管了系统的各个部分,从处理图像到多图像预测,最终系统只需输出转向指令。
特斯拉在这方面做得很好。相比之下,Waymo尝试了不同的方法,但似乎没有完全实现他们的目标。因为Waymo对具体细节保密,我们不完全了解他们的做法,但我相信特斯拉的逐步推进方法是有效的。
未来,特斯拉的端到端系统可能完全依赖神经网络,通过视频流直接生成指令。
不过,实现这一目标需要时间,因为要逐步建立系统并处理各种中间预测。即使在端到端系统中,中间表征和特征检测器仍然重要,它们可以简化最终系统的设计。
训练一个庞大的神经网络进行端到端驾驶时,监督信号不足是一个挑战。因此,中间层的表征和检测器能帮助解决这个问题,使端到端训练更可行。
尽管我不是这个团队的一部分,我相信特斯拉通过大量的预训练可以逐步优化端到端系统。总体来说,特斯拉的逐步推进方法是合理且有效的。
人形机器人
Sarah Guo:你之前研究过特斯拉的人形机器人项目。我有很多问题,其中一个是,是否有技术或经验的转移?
Andrej Karpathy:几乎所有东西都在转移,我觉得很多人并没有意识到这一点。
实际上,汽车本身就是一种机器人。而我并不认为特斯拉是一家汽车公司,这种看法其实有些误导。特斯拉更像是一家机器人公司,尤其是在大规模生产机器人方面,因为规模化是个独立的变量。
他们不仅仅是在制造某一件产品,而是在制造生产这件产品的机器,这也是一种完全不同的能力。所以,特斯拉就是一家规模化的机器人公司。
从汽车到人形机器人之间的技术转移,其实并没有那么困难。
事实上,早期版本的机器人“擎天柱”一度以为自己是辆汽车,因为它使用了同样的计算机和摄像头。
非常有趣的是,我们在机器人上运行的是汽车的算法,而它却在办公室里四处移动,试图识别可驾驶的空间,但实际上它面对的是步行空间。虽然有些细微的调整需要做,但基本上,它在开车的环境里运行,实际上只是在行走。
Sarah Guo:这么说的话,确实可以从一个机器人视角去思考这个问题。许多技术可以直接转移,只是缺少了一些驾驶相关的数据和控制模块。
Andrej Karpathy:没错,确实会缺少一些关键的组件。
但另一件让我印象深刻的是,Optimus项目启动的速度非常快。当Elon宣布这个项目时,所有相关的工具、CAD模型、供应链管理等就迅速到位了。这让我意识到,特斯拉内部其实积累了大量制造机器人的专业知识。
所有这些工具其实是通用的,只是被从汽车项目中重新配置和调整了一下。你需要的硬件、规模化生产的工具,甚至是背后控制这些工具的大脑,其实都差不多。
所以,不仅是技术网络的转移,还涉及到各种工作方法的转移。比如,标签团队的工作方式、协调方法,以及整个项目团队的运作方式,这些都需要进行大量的转移和调整。
Elad Gil:你有没有想过人形机器人或类似技术的第一个实际应用领域是什么?
Andrej Karpathy:我认为,最初的应用领域应该是公司内部自己使用。我非常看好特斯拉,他们可能会采取这种方式。
如果公司能意识到第一个客户是自己,那么可以在工厂内部进行项目孵化,处理如材料搬运等任务。这样一来,就可以避免与第三方签订复杂的合同,省去法律上的麻烦。
在内部成功孵化之后,可以进入B2B市场,向拥有大型仓库的公司推广。这些公司需要处理材料搬运等任务,合同和安全措施也能就绪。
等到在多家公司内部成功应用后,才是进入B2C市场的时机。我相信我们会看到B2C领域的机器人出现,例如像Unitree这样的公司也在推出令人期待的机器人。
Unitree推出的G1机器人
Sarah Guo:我现在有一个G1机器人。
Andrej Karpathy:我也可能会考虑买一个。未来可能还会围绕这些平台形成一个生态系统,人们会基于这些平台进行开发。
虽然从规模化的角度来看,这种方法是有前景的,但在初期阶段,主要还是处理材料搬运任务,之后再逐步向更复杂的高复杂性任务(HKC)发展。
其中一个让我非常兴奋的项目是“吹叶机挑战”。我希望看到Optimus机器人能在街上像踮着脚尖一样小心翼翼地捡起每一片落叶,这样我们就不再需要那些噪音大的吹叶机了。
我觉得这是一项很有前景的任务,也希望这是最早的应用之一。
Sarah Guo:我们可以聊聊人形机器人的设计逻辑吗?最简单的说法是:世界是为人类设计的,所以如果你制造一套硬件,最合理的做法就是让这个模型在这套硬件上完成越来越多的任务。另一方面,有人认为,人类并不是在所有任务中的最佳选择。你可以让它们更强壮、更大或者更小,那为什么不尝试做一些超越人类能力的事情呢?你怎么理解这个问题?
Andrej Karpathy:我觉得人们可能低估了每个平台的固定成本的复杂性。实际上,每个平台都有很高的固定成本,因此集中化、让一个平台能够处理所有任务是非常有意义的。
此外,人形设计也很吸引人,因为人类可以轻松操作它,这在数据收集方面也非常有帮助。我认为这一点经常被忽视。
你提到的世界为人类设计的因素当然也很重要。我认为我们会看到一些人形平台的变体,但每个平台的固定成本都是巨大的。
另外一个重要因素是多任务学习。我们希望有一个能够处理多种任务的单一神经网络,从中获得所有的智能和能力。
这也是语言模型如此有趣的原因之一,因为它们在统一的文本领域中处理多种任务,不同的问题之间共享知识,都结合在一个单一的神经网络中。
你需要这样的平台。希望为叶子捡拾收集的数据能对其他任务也有帮助。如果你为特定任务构建专用系统,就不能从其他任务中获得迁移学习的好处。
Sarah Guo:我听说G1的价格大约是3万美元,对吧?但似乎很难在特定预算下制造出一个功能非常强大的仿人机器人。如果你想在轮子上装一个能做事的手臂,也许一开始用更便宜的方法来实现一个通用平台会更实际。
Andrej Karpathy:这个观点很有道理。你可以在上面装一个轮子来替代脚。
我不确定这种做法是否会降低机器人的效果,但我觉得选择一个平台,让它在长期使用中表现出色是非常重要的。
另外,人形机器人也有一种心理上的优势,因为它们看起来更熟悉,人们更容易理解和互动。
不过,这也可能带来恐惧感,人们可能更喜欢更抽象的设计。我不确定是否会出现某种“真正的怪物”,但这确实是一个有趣的问题。
Elad Gil:你认为实现这一未来技术里程碑还缺少什么?
Andrej Karpathy:我不确定自己是否有一个完全清晰的视角来解答这个问题。
不过,有一个有趣的方面是,在人体形态的设计中,下半身可能需要模仿学习,因为它涉及大量的钟摆式控制和类似的技术,而上半身则需要处理远程操作、数据收集和端到端的训练。因此,整体来看,这些系统之间的互动变得非常复杂。
在初期阶段,我预计很多工作将依赖于远程操作,从地面开始模仿,这可能会在95%的情况下有效。
接下来,讨论人与机器人之间的比例时,人们可能会逐渐转变为机器人的监督者,而不是直接完成任务。这个过程将随着时间推移逐步发生。
至于技术上的障碍,我不确定是否有某一件具体的事情阻碍了我们。
我觉得目前很多工具都已经可以使用。像Transformer这种技术就像是一种美丽的组织结构,只需要将数据以正确的形式输入,然后进行训练、实验、部署和迭代。
这些过程确实繁琐,但我不清楚是否有单独的技术问题在阻碍我们的进展。
Scaling Law与“数据墙”
Sarah Guo:我们现在所处的状态是怎样的?
Andrej Karpathy:我们目前的状态非常好。我觉得大家可能还没有完全理解Transformer的真正神奇之处。它不仅仅是另一个普通的神经网络,而是一个非常通用且强大的网络架构。
举个例子,当人们谈论神经网络中的“Scaling Law”时,这个法则实际上在很大程度上是Transformer的特性。
在Transformer出现之前,人们使用的是LSTM(长短期记忆网络),将其层层堆叠,但却无法得到清晰的Scaling Law。LSTM的训练效果也不理想,而Transformer则彻底改变了这一点。它是第一个能够真正体现Scaling Law的架构,一切都变得更加合理。
可以说,Transformer就像是一个通用的“可微分计算机”(differentiable computer)。
你可以向它输入、输出大量数据,利用反向传播进行训练。它可以自我组织起来,完成任务。我认为这是我们在算法领域无意中发现的一个神奇现象。
其中当然有一些关键的创新,比如残差连接(residual connections)、层归一化(layer normalization)和注意力机制(attention module)。
同时,它也避免了一些常见的饱和性非线性(如早期神经网络中的激活函数),因为这些会削弱梯度信号。于是,几项重要的创新组合在一起,形成了Transformer。
谷歌的论文展示了这一点,这种架构真正可以有效训练,而且你会发现它可以轻松实现Scaling Law。可以说,这是一项重大的突破。
Sarah Guo:感觉我们还没有真正达到发展的极限,我想讨论“数据墙”问题,以及未来一代产品的成本和规模会有多高。你对此怎么看?
Andrej Karpathy:这正是我们现在面临的核心问题。我不认为神经网络的架构会阻碍我们进一步发展,至少它已经不是瓶颈了。
在前几代模型中,Transformer确实是一个瓶颈,但现在情况不同了。所以我们现在更多讨论的是:该使用什么损失函数?数据集在哪里?这些问题逐渐成为了新的瓶颈。
其实,神经网络的结构已经比较成熟,很多公司和使用这项技术的人已经不再关注Transformer的架构创新。
比如,Llama发布的Transformer架构也没有太大变化,唯一的显著更新就是增加了“绳索位置编码”。其他方面的改进,像是一些小的调整,可能总共也只带来了3%左右的性能提升。
所以,从架构角度看,过去五年里没有太多革命性的变化,大家现在已经把它视为理所当然,直接使用并进行训练。
现在,大部分的创新都集中在数据集和功能细节的优化上。这是目前行业内活跃的讨论和改进领域。
Sarah Guo:对吧?但在数据获取方面也有很多争论。当我们能够轻松获取互联网数据时,问题不大,但一旦这些数据不再可用,情况就复杂了。比如,合成数据或者更昂贵的数据采集方式成为了现实中的挑战。
Andrej Karpathy:是的,这确实是个好问题。现在,很多工作都在语言模型(LMS)上进行。
而互联网数据并不是我们理想中的Transformer训练数据。它就像是一个“近邻”,能让你走得很远,效果出乎意料地好。
但说到底,互联网数据本质上就是一堆网页,而我们真正想要的,是更接近人类大脑中的“内心独白”那种数据。
Sarah Guo:对,这正是我们的思路——捕捉大脑中的轨迹,思维的轨迹。
Andrej Karpathy:当你在解决问题时,你的大脑会产生一系列思维轨迹。如果我们能得到上亿条这样的数据,类似于AGI的想法,那我们就能取得很大进展。但目前我们还没有达到这个水平。
所以,现在很多工作都围绕着互联网数据展开。这些数据虽然不是完美的,但已经非常接近,因为互联网上有足够的推理痕迹和丰富的知识,而Transformer的作用就是让这些数据得以有效利用。
我认为,接下来很多工作将聚焦于如何将数据集重构为更类似于“内心独白”的格式。合成数据的生成在这方面能提供很大帮助。
有趣的是,当前的模型在很大程度上帮助我们构建下一代模型。它就像在攀登楼梯,一步步向前推进。
Elad Gil:你觉得合成数据在这一过程中有多大的作用?合成数据能带我们走多远?因为是的,每一代模型的训练都会帮助我们改进下一代模型,提供更多工具、数据标签,甚至生成部分合成数据。你认为这些合成数据片段的重要性有多大?
Andrej Karpathy:是的,我认为合成数据的确是我们进步的关键之一,但一个常见的问题是,模型在生成内容时可能出现“坍塌”现象,输出变得单一。
比如,让ChatGPT讲笑话时,它可能只会重复三四个笑话,缺乏足够的变化。这种“熵”降低现象表现在单个结果上并不明显,但从整体来看,模型的输出会失去多样性和丰富性。
如果你没有保持这种“熵”——即数据的随机性和多样性——你就会得到一个贫瘠的数据集,失去了原有的活力。这种问题在表面上不易察觉,但实际上它会极大影响模型的性能。
因此,在生成合成数据时,你必须非常小心,确保数据集中保留足够的熵。
有些人发布过虚拟人物数据集,里面有上亿个性化的背景资料,类似于虚构的人物档案。
比如“我是一个老师”或者“我是一个艺术家”,这类背景设定。通过这种方式,你不仅仅是在完成一个任务,还在逼迫模型探索更多可能的空间,从而增加了数据的多样性。
总的来说,我认为合成数据在未来会占据非常重要的地位,我们不会面临数据枯竭的困境。但在使用时需要非常小心,确保数据集保持足够的丰富性和多样性。
Sarah Guo:你认为我们从这项研究中对人类认知了解了什么?比如,弄清楚我们推理的方式,是否真的能帮助我们更好地理解大脑的工作原理?
Andrej Karpathy:我会对这种类比保持谨慎。总体而言,这两者还是有很大差异的,但确实有一些相似之处。
举个例子,我觉得在很多方面,Transformer比人脑更高效。它们之所以还不如人脑,主要是因为数据问题——这算是一个大概的解释。
比如,Transformer在记忆序列方面比人类强多了。你给它一个序列,它可以在前后进行操作,记住并完成整个序列。而人类,只看一遍是记不住的。
所以在某些方面,像Transformer这样的模型,尤其是在梯度优化上,可能比大脑还要有效。尽管它们还不完美,但在很多认知任务上,我认为它们有很大的潜力。
Sarah Guo:只要有足够的数据输入,它们就会表现得更好。
Elad Gil:是的,这是计算机的典型优势,在某些应用上,它们比人类更擅长。
Andrej Karpathy:没错,尤其在记忆方面。人类大脑有很多限制,比如工作记忆容量非常小。而Transformer有更大的工作记忆,并且是更高效的学习者。
人类大脑在很多环境和生物限制下工作,比如人类没有类似于反向传播的机制,这本身就不直观。人脑是一个复杂的动态系统,受到很多约束。
而我们现在的AI系统在某些方面可能已经比大脑更好,只是还没达到大脑的整体水平。
人工智能与未来教育
Sarah Guo:你离开了OpenAI,现在从事教育工作。是什么让你对教育如此热衷?
Andrej Karpathy:我一直对学习和教学充满热情。这不仅是我长期以来的兴趣,还因为我认为AI的目标不仅是自动化,更是赋予人们更多能力。我希望AI能帮助人们提升自我,而不是仅仅取代工作。如果能有理想的课程和导师,人们的成长会更快。
Elad Gil:80年代的研究表明个性化辅导能提高成绩。AI要如何发挥作用?初期可能会出现什么产品?
Andrej Karpathy:我受到了这些研究的启发。
现在,我在尝试建立一个类似的课程,希望它能像你想学习AI那样提供帮助。问题在于如何将这些课程扩展到全球80亿人,他们有不同的语言和能力水平。
与每个人一对一的授课是不现实的。因此,我认为AI可以用来模拟优秀的教师。
虽然现有的AI模型可能还不足以创建完美的课程,但它们可以作为学生的前端,为他们解释课程内容。老师将专注于设计课程内容,而AI则负责与学生互动,支持多种语言,并引导他们完成学习过程。
Eureka Labs计划推出的第一门AI课程
Sarah Guo:我应该把这看作是类似于AI作为前端的经历吗?这种类比是否适用?
Andrej Karpathy:是的,我认为AI可以作为学生的前端,实际与学生互动并引导他们完成课程,只是目前还没有完全实现。
随着时间的推移和技术的进步,这种设置可以不断优化。很多公司可能对现有AI能力的理解还不够深入,导致他们构建的工具可能过于前瞻或不够实际,但AI在教育中的潜力非常令人兴奋。
Sarah Guo:我们还未完全利用好学习工具,你认为如果我们使用更多工具和课程,人类能否变得更好?
Andrej Karpathy :确实如此。我们还没有完全意识到可能性有多大。我认为有两个关键维度:一是全球化维度,希望每个人都能接受优质教育;另一个是个体能力的提升。两者都非常有趣且令人兴奋。
Elad Gil:一对一学习通常强调适应性,特别是如何根据每个人的学习水平调整。你认为现在的AI能做到这一点吗,还是这还是未来的事?目前的AI主要关注影响力和多语言支持。
Andrej Karpathy:AI确实在翻译和处理材料方面非常擅长,这些功能已经很强大。
但对于个性化适应性,AI现在还处于起步阶段。尽管当前的模型在某种程度上能够根据背景进行调整,但真正高效的适应性还需要进一步发展。
Elad Gil:适应性学习的关键是调整内容以匹配学习者的背景和能力水平。随着时间推移,可以调整模型以适应学习者的优缺点。你怎么看待这种情况?
Andrej Karpathy:目前,我们看到的更多是演示效果,而真正的产品还远未成熟。适应性学习在理论上接近,但在实际应用中仍有很多挑战。
Elad Gil:非常感谢,今天的讨论很精彩。