大度数据进修涌现出来的能力,终于超越了人们的想象。
OpenAI 推出视频生成模型 Sora 已经一周的时间了,热度不减,作者团队还在持续放出让人眼前一亮的视频。比如「一群爱冒险的小狗探索天空废墟的电影预告片」,Sora 一次生成并自己完成剪辑。当然,一个个生动、逼真的 AI 视频让人们好奇为什么是 OpenAI 率先打造出了 Sora 并能够跑通所有 AGI 技术栈呢?这一问题在社交媒体上引发了热烈的讨论。
其中,在一篇知乎文章中,加州大学伯克利分校较量争论机科学博士、作者 @SIY.Z 分析了 OpenAI 成功的一些步骤论,他认为 OpenAI 的步骤论就是通往 AGI 的步骤论,并且该步骤论建立在几个重要的「公理」之上,包括了 The bitter lesson、Scaling Law 和 Emerging properties。
知乎原贴:https://www.zhihu.com/question/644486081/answer/3398751210?utm_psn=1743584603837992961
其中 The bitter lesson 源自机器进修先驱 Rich Sutton 在 2019 年的一篇经典文章《香甜的教导》, 通过探讨人工智能近几十年所走过的弯路,他抛出的核心观点是:人工智能如果想要长期获得提升,应用强大的算力才是霸道。这里的算力隐含了大度的训练数据和大模型。
原文链接:http://www.incompleteideas.net/IncIdeas/BitterLesson.html
因此,作者 @SIY.Z 认为某种意义上,强大算力加持的通用 AI 算法才是 AGI 路径的霸道和 AI 技术真正进步的方向。有了大模型、大算力和大数据,The bitter lesson 构成了 AGI 的必要条件。再加上 Scaling Law 这一充分条件,通过算法使大模型、大算力和大数据获得更好的结果。
无独有偶,本周被疯传的 OpenAI 研讨职员 Jason Wei 的每日工作时间线中也提到了 Rich Sutton 的 The bitter lesson。由此可见,良多业内人士将 The bitter lesson 视为圭臬。
来源:https://twitter.com/_jasonwei/status/1760032264120041684
与此同时,在另一个关于「大语言模型(LLM)是否可以作为自身结果的验证者」的讨论中,有人认为 LLM 验证自身结果时根本不够准确,并且会导致性能更差(还需要为 API 付出良多代价)。
来源:https://twitter.com/curious_vii/status/1759930194935029767
对于这一观点,又有推特网友在 Rich Sutton 二十多年前的一篇博客中有了重要的发现。
原文链接:http://incompleteideas.net/IncIdeas/KeytoAI.html
博客中是这样说的:
考虑到任何 AI 系统以及它所拥有的学问,它可能是一个专家系统或者像 CYC 这样的大型数据库。或者它可能是一个熟悉建筑物布局的机器人,或者了解在各种处境下如何做出反应。在所有这些情况下,我们可以问 AI 系统是否可以验证自己的学问,或者是否需要人们干预来检测误差和不可预见的交互,并进行纠正。在后者这种情况下,我们永远无法建立真正庞大的学问系统。它们总是脆弱且不可靠的,并且规模仅限于人们可以监控和了解的范畴。
没想到,Rich Sutton 进行了回帖,表示这篇写了一半的博客是 The bitter lesson 的原型。
来源:https://twitter.com/RichardSSutton/status/1760104125625459171
其实,在 OpenAI 刚发布 Sora 不久,就有良多人意识到了 The bitter lesson 发挥了重要作用。
还有人将 The bitter lesson 与 Transformer 论文 Attention is All You Need 并列看待。
来源:https://twitter.com/karanganesan/status/1759782109399662777
文章最后,我们回顾一下 Rich Sutton 的《香甜的教导》全文。
70 年的人工智能研讨史告诉我们,应用较量争论能力的一般步骤最终是最有效的步骤。这个归摩尔定律解释,或者它对每单位较量争论成本持续指数级下降的概括。大部分 AI 研讨都是在认为智能体可用的较量争论为恒定的情况下进行的(在这种情况下,应用人类学问是提高性能的唯一步骤),但是,在比典型研讨项目稍长的时间尺度内,我们不可避免地会需要大度的较量争论。
要在短期内有所提升,研讨职员要应用专门畛域的人类学问。但如果想要长期的获得提升,应用较量争论能力才是霸道。这两者本无需对立,但实际上它们往往如此。花时间研讨一个,就会忽略另一个。应用人类学问的步骤容易复杂化,导致其不太适合应用较量争论的步骤。良多例子表明 AI 研讨职员对这些教导的认识太晚,因此我们有必要回顾一些突出的例子。
在较量争论机国际象棋中,1997 年击败世界冠军卡斯帕罗夫的步骤鉴于大度深度搜寻。当时,大多数 AI 较量争论机象棋研讨职员沮丧地发现了这一点,他们的步骤是应用人类对象棋特殊结构的理解。当这个应用硬件和软件的鉴于搜寻的更简单步骤被证明更有效时,这些鉴于人类学问的象棋研讨职员却仍不肯认输。他们认为虽然这个「暴力」搜寻步骤此次赢了,但它并不是一个普遍的策略,无论如何它不是人类下国际象棋的步骤。这些研讨职员希望鉴于人类输入的步骤获胜,但结果却令他们失望了。
较量争论机围棋中也有类似的研讨进展模式,只是晚了 20 年。最初研讨职员努力应用人类学问或游戏的特殊性来避免搜寻,但所有的努力都被证明没什么用,因为搜寻被大规模地有效应用。同样重要的是应用自我对弈(self play)来进修一种价值函数(就像在良多其他游戏甚至国际象棋中一样,虽然在 1997 年首次击败世界冠军的比赛中没起到什么作用)。通过自我对弈进修和一般进修有点像搜寻,因为它能让大度的较量争论发挥作用。搜寻和进修是人工智能研讨中应用大度较量争论的两种最重要技术。在较量争论机围棋中,就像较量争论机国际象棋中一样,研讨职员最初是想通过人类理解(这样无需太多搜寻)来实现目的,只是在后来,通过搜寻和进修才取得了巨大成功。
在语音识别畛域,早在上世纪 70 年代就有一个由 DARPA 赞助的竞赛。参赛者应用了良多应用人类学问的特殊步骤:单词、因素和人类声道等。另一方面,还有人应用了鉴于隐马尔可夫模型的新步骤,这些步骤在本质上更具统计性,较量争论量也更大。同样,统计步骤战胜了鉴于人类学问的步骤。这导致了自然语言处理畛域的重大改变,过去几十年来,统计和较量争论在该畛域逐渐占据主导地位。深度进修最近在语音识别中的兴起正是朝着这一方向迈出的最新一步。
深度进修步骤更少依赖人类学问,使用更多的较量争论,并且伴有大度训练集的进修,从而生成更好的语音识别系统。就像在游戏中一样,研讨职员总是试图令系统按照他们的思维方式进行运作 —— 他们试图将学问放在系统中 —— 但事实证明,最终结果往往事与愿违,并且极大浪费了研讨职员的时间。但是通过摩尔定律,研讨职员可以进行大度较量争论,并且找到一种有效应用的步骤。
较量争论机视觉畛域存在相似的模式。早期步骤认为视觉是为了搜寻边缘、广义圆柱体或者取决于 SIFT 特征。但是今天,所有这些步骤都被抛弃了。现代深度进修神经网络仅使用卷积和某些不变性的概念即可以取得更好的效果。
这是一个非常大的教导。因为我们还在犯同一类错误,所以依然未能彻底了解人工智能畛域。要看到这一点并且有效地避免重蹈覆辙,我们必须理解这些错误为何会让我们误入歧途。我们必须吸取惨痛的教导,即从长远看,固守我们的思维模式是行不通的。痛苦的教导鉴于以下历史观察结果:
AI 研讨职员常常试图在自身智能体中建立学问,
从短期看,这通常是有帮助的,能够令研讨职员满意,
但从长远看,这会令研讨职员停滞不前,甚至抑制进一步发展,
突破性进展最终可能会通过一种相反的步骤 —— 鉴于以大规模较量争论为基础的搜寻和进修。最后的成功往往带有一丝香甜,并且无法完全消化,因为这种成功不是通过一种令人喜欢、以人为中心的步骤获得的。
我们应该从痛苦的教导中学到的一点:通用步骤非常强大,这类步骤会随着算力的增加而继续扩展,即使可用较量争论变得非常大。搜寻和进修似乎正是两种以这种方式随意扩展的步骤。
强化进修教父 Richard S. Sutton,现任加拿大阿尔伯塔大学教授。
我们从痛苦的教导中学到的第二个普遍观点是,意识的实际内容是极其复杂的;我们不应该试图通过简单步骤来思考意识的内容,如思考空间、物体、多智能体或者对称性。所有这些都是任意的、本质上复杂的外部世界的一部分。
它们不应该被固有化,其原因是复杂性是无穷无尽的;相反,我们只应该建立可以找到并捕获这种任意复杂性的元步骤。这些步骤的关键在于它们能够找到很好的近似值,但对它们的搜寻应由我们的步骤完成,而不是我们自己。
我们希望 AI 智能体可以像我们一样发现新事物,而不是重新找到我们所发现的。在我们发现的基础上建立只能令人更加难以看清发现过程的完成情况。