智能本质、对齐、Gemini、超人类AI和多模态、AGI……在这场干货满满的访谈中,Demis Hassabis可谓「知无不言、言无不尽」。
「如果我们在未来十年内拥有类似 AGI 的体系,我不会感到惊讶。」Google DeepMind 联合创始人和 CEO Demis Hassabis 近日在人工智能播客节目 Dwarkesh Podcast 上如是说。
在长达一个小时的节目中,Hassabis 分享了自己对智能本质、强化进修、规模扩张和对齐、AGI、多模态等主题的看法。机器之心选择性地整理了其中的主要内容并进行了适当编辑以便阅读。
智能的本质
Dwarkesh Patel:第一个成绩:您有神经科学背景,那么您是怎么看待智能的?
Demis Hassabis:这个成绩很乏味。智能异常宽泛,可普遍用于各种用途。我以为这说明对于大脑处理我们周围天下的方式,必然存在某种高层级的共同之处,算法层面的共同之处。当然,大脑中有做特定事情的特定部分,但我以为所有这些事情下面能够有一些基本原则作为支撑。
Dwarkesh Patel:您怎么看待这一事实:对于现在的 LLM,当你向其提供大量特定范围的数据时,它们往往会在那个范围变得格外地好?难道不能在所有不同范围上实现普遍提升吗?
Demis Hassabis:首先,我以为当在某个范围内获得提升时,有时候也会在其它范围获得出人意料的提升。举个例子,当这些大模型的编程能力提升时,它们的一般推理能力实际上也能得到提升。所以现在是有一定的迁移进修的证据。而且这也是人脑进修的方式。如果我们大量经历或练习象棋或写作等事项,我们就会越来越擅长对应的事情,即便我们是应用某种通用进修技能和通用进修体系来进修某个特定的范围。
Dwarkesh Patel:以语言和编程为例,在神经网络中,是否存在某种地方存在某种机制让模型的语言和编程能力一起提升?
Demis Hassabis:我们目前的分析技能还不足以确定这一点。实际上,对于这些体系建立的表征的机制分析,还有待大量研讨。我有时候把这称为虚拟脑分析(virtual brain analytics)。从某个方面看,这有点像是 fMRI,或者记录真实大脑中单个细胞的活动。对于这类分析技能,可以怎样将其类比到人造心智呢?这方面有得多出色的研讨成果。比如 Chris Olah 就在研讨这个,我很喜欢他的研讨。有得多计算神经科学的技能可以引入过来分析我们目前正在建立的这些体系。事实上,我也在努力鼓励我在计算神经科学范围的朋友思考这个方向,应用他们的所学来理解大型模型。
Dwarkesh Patel:由于您有神经科学背景,您多半了解一些其他 AI 研讨者不太了解的有关人类智能的知识。这方面的知识有哪些?
Demis Hassabis:神经科学的助益很大。看看过去一二十年的研讨就能知道。事实上我已经思考这些三十多年了。在这新的一轮 AI 浪潮早期,神经科学提供了大量乏味的引导性线索。于是出现了强化进修以及深度进修等技能。我们在这方面也有一些开创性的研讨成果,比如经历重放(experience replay)以及已经变得异常重要的注意力(attention)概念。得多这些成果的初始灵感都是来自对大脑工作方式的理解,当然它们并不完全一样。一种是工程开发出的体系,另一种是自然的体系。它们并不是某种算法的一对一映射,而更像是某种指示方向的灵感——或许是某种架构思想,或者算法思想或表征思想。毕竟大脑本身就是通用智能存在的证据。人类就是这样的,一旦知道某件事是能够的,就更容易朝那个方向努力,因为你知道这就是一个努力进取直到某时取得成功的成绩,而不是能否成功的成绩。这能让人更快地取得进展。
我以为在如今成功的背后,神经科学启迪了得多人的思考,至少是间接的。至于未来,我以为在规划方面还有得多乏味的成绩有待解决。还有大脑是以何种方式建立出了正确的天下模型?举个例子,我研讨过大脑是如何进行想象的,你也可以将这看作是心智模拟。我们就会问:为了执行更好的规划,我们是以怎样的方式创建了对于天下的异常丰富的视觉空间模拟?
LLM 之上的强化进修
Dwarkesh Patel:LLM 能否具备这种类似树搜寻的能力?您对此怎么看?
Demis Hassabis:我以为这是一个异常有潜力的研讨方向。我们在持续不断地提升大型模型,让它们成为越来越准确的天下预测器。在效果上,就是让它们成为越来越可靠的天下模型。这明显是必要的,但我以为这能够并不是 AGI 体系的充分条件。在这之外,我们还在研讨 AlphaZero 这样的规划机制——其可应用模型执行明确的规划,从而在天下中实现特定的目标。另外能够还会搭配某种链式思维或推理路径,也能够应用搜寻来探索巨大的能够性空间。我以为这是我们当前的大模型所缺少的能力。
Dwarkesh Patel:对于这些方法所需的巨量算力,您会怎么获得?您以为这方面的效率会怎么得到提升?
Demis Hassabis:首先,摩尔定律会帮助我们。每一年,计算能力都在提升;但我们更关注样本高效型的方法以及复用已有的数据,比如经历重放。天下模型越好,搜寻效率就越高。举个例子,AlphaGo 的搜寻效率就远高于应用暴力搜寻的深蓝(Deep Blue)。深蓝的每一次决策能够需求查看数百万种能够下法。AlphaGo 则只需求大约数万次就能决定下一步。但人类的大师级棋手能够只需检查几百种下法就能得到一个异常好的下一步决策结果。这明显说明,暴力搜寻体系对这些棋并没有真正的模型。AlphaGo 有相当不错的模型,而顶级人类棋手拥有更丰富、更准确的围棋或国际象棋模型。这让他们只需少量搜寻就能做出天下级的决策。
Dwarkesh Patel:但是 AlphaGo 胜过了人类冠军。
Demis Hassabis:当然,所以我们做出了开创性的成果,DeepMind 也因此出名。我们应用游戏作为验证平台,因为很显然在游戏中的搜寻效率更高。另外,在游戏中也更容易设定奖励函数——不管是获胜还是赢取分数。这些是大多数游戏内置的奖励机制。但对于真实天下体系,这却异常困难——该如何定义正确的目标函数、正确的奖励函数和正确的目标?
Dwarkesh Patel:人类智能有很高的样本效率,它与 AlphaGo 这些体系得到解答的方式有何不同?比如爱因斯坦如何想出了相对论?
Demis Hassabis:它们大不相同,因为我们的大脑并不会执行蒙特卡洛树搜寻。这不是我们的有机大脑的工作方式。为了弥补这一点,人类的大脑会用到直觉。人类会应用自己的知识和经历来建立异常准确的模型,比如爱因斯坦建立了异常准确的物理模型。如果你阅读一下爱因斯坦的经历,看看他是如何想出那些理论的,你会发现他习惯视觉化地思考那些物理体系,而不只是通过数学公式。这让他有了对这些物理体系的异常直觉化的感知。这让他产生了在当时显得异常离奇的想法。
我以为这就是我们建立的天下模型的复杂精妙之处。想象一下,如果你的天下模型能让你抵达你正在搜寻的某个树的某个节点,然后你就只需求在这个节点附近搜寻即可。这样一来,你的搜寻量就少多了。
Dwarkesh Patel:现在还有一个成绩有待解决:强化进修能否让模型应用自我博弈合成数据来克服数据瓶颈成绩?您似乎对此很乐观。
Demis Hassabis:是的,我对此异常乐观。首先,仍然还有大量数据可以应用,尤其是多模态和视频等数据。而且显然,社会也在一直不断增加更多数据。但我以为创造合成数据方面也有很大的发展空间。这方面有一些不同的方法,比如模拟和自我博弈,模拟方法包括应用异常仿真的游戏环境来生成接近真实的数据。而自我博弈则是让模型互相交互或交谈。这种方法在我们开发 AlphaGo 和 AlphaZero 时效果异常好。
Dwarkesh Patel:那么该如何确保合成的数据不是来自模型的数据集,而是新数据?
Demis Hassabis:我以为这需求一门完整的学科来进行研讨。在这方面,我们仍处于数据管理和数据分析的初级阶段。比如通过分析数据分布,能找到分布中的漏洞,这对于公平与偏见等议题来说异常重要。要将其移出体系,就需求确保数据集能够代表你想要进修的分布。对此人们有一些可以应用的技巧,比如增大数据中特定部分的权重或重放这部分数据。也可以想象,如果你发现你的数据集中有如此漏洞,你可以应用生成的数据来进行填补。
Dwarkesh Patel:现在人们很关注强化进修,但其实 DeepMind 得多年前就研讨过了。是否还有类似这样的研讨方向——早已经出现了,但还没有引起人们重视?
Demis Hassabis:事实上,过去几十年来这种事情一直在发生。新旧思想结合起来就有巨大潜力,比如过去的一些想法与更大规模模型和大型多模态模型结合起来也许就能得到激动人心的结果。
Dwarkesh Patel:强化进修、LLM、树搜寻,哪种方法有潜力催生出 AGI?
Demis Hassabis:从理论上看,我以为纯 AlphaZero 式的方法没理由不成功。Google DeepMind 和社区一些人正在研讨在假设完全没有先验知识、没有数据的前提下,从头开始建立所有知识。我以为这是有价值的,因为这些想法和算法在有一定知识时也能应用。
话虽如此,但目前来说我以为最能够最快实现 AGI 的方法是应用目前天下上已有的知识,比如网络上的和我们收集的知识。而且我们还有 Transformer 等有能力消化这些信息的可大规模扩张的算法。你可以将一个模型用作某种形式的先验,基于其上进行建立并执行预测,以此启动 AGI 进修。没理由不这样做。我猜想,在最终的 AGI 体系中,大型多模态模型会成为整体解决方案的一部分,但它们本身并不足以成为 AGI。它们还需求额外的规划搜寻能力。
扩张与对齐
Dwarkesh Patel:现在有个规模扩张假设(scaling hypothesis)。有人猜想,只要扩大模型和数据分布的规模,智能终会出现,您认同吗?
Demis Hassabis:我以为这是一个需求实验检验的成绩。几乎所有人(包括那些最早开始研讨规模扩张假设的人)都很惊讶规模扩张所带来的成就。看看现如今的大模型,它们的效果好得简直不合理!大模型涌现出的一些性质相当出人意料;在我看来,大模型是有某种形式的概念和抽象能力。要是回到五年以前,我会说要做到这一点,我们能够还需求另一种算法方面的突破。也许更类似大脑的工作方式。我以为,如果我们想要明确的、简洁的抽象概念,我们依然需求更加理解大脑,但这些体系似乎可以隐式地进修它们。
另一个出人意料的乏味结果是这些体系获得了某种形式的现实基础知识(grounding/定基),即便它们并未体验过天下的多模态——至少在近期的多模态模型出现之前没有。只是靠语言就能建立起如此大量的信息和模型,着实让人惊讶。对此的原因,我有一些假设。我以为大型语言模型能通过 RLHF 反馈体系获得一些现实基础知识,因为人类反馈者本身就是生活在现实中的人。我们就立足于现实天下中。所以我们的反馈也是立足于现实的。因此这能让模型获得一些现实基础。另外,也许语言中就包含了更多的现实基础,如果你能完全洞悉语言,也许能发现我们之前能够没考虑到的东西,甚至能够已经有语言学家研讨过这些方面。这实际上是一个异常乏味的哲学成绩。人们甚至能够都尚未触及其表面。看看过去的进展,畅想未来是异常乏味的。
对于你说的规模扩张成绩,我以为我们应当尽能够地扩大规模,我们也正在这么做。至于最后会趋近一条渐近线还是撞上铁墙,这是个实验成绩,不同的人会有不同的意见。但我以为我们应该直接去测试。没人能想出答案。但与此同时,我们也应该加倍投资创新和发明。这是google研讨院、DeepMind 和google大脑的做法,我们在过去十年中开创性地取得了许多成果。这就是我们的生存之道,
可以说,我们一半的努力是在扩张规模,另一半则是在研发未来的架构和算法——它们或许是在模型变得越来越大之后所需的。我大概猜想,未来这两方面都需求。所以我们要两方面都尽能够地发力。我们很幸运,因为我们确实能做到这一点。
Dwarkesh Patel:再多聊聊定基(grounding)。可以想象,有两件事会让定基变得更加困难。一是随着模型变得更加聪明,它们就能在我们无法生成足够人类标签的范围工作——因为我们不够聪明。而是关于计算。目前我们做的都是下一 token 预测。这就像是一个护轨,限制模型让其像人类一样谈话,像人类一样思考。现在,如果额外的计算是以强化进修形式出现的呢——我们只知道达成了目标但无法追踪是如何达成的?如果这两者组合起来,定基会出现什么成绩?
Demis Hassabis:我以为如果体系没有适当地定基,体系就无法适当地实现这些目标。我以为在某种程度上体系应该有定基,至少要有一些,这样才能在真实天下中真正实现目标。随着 Gemini 这样的体系变得更加多模态,可以在文本数据之外处理视频、音频和视觉数据,这些体系就会开始将这些东西融合到一起。我以为这其实就是一种形式的定基。这样体系就会开始更好地理解真实天下的物理机制。
Dwarkesh Patel:为了对齐比人类更聪明的体系,应该怎么做?
Demis Hassabis:我和 Shane(注:Shane Legg,DeepMind 联合创始人,现担任该公司首席 AGI 科学家)还有其他许多人在我们创立 DeepMind 之前就已经在考虑这个成绩了,因为我们计划着取得成功。2010 年时,还没什么人研讨 AI,更别说 AGI 了。但我们那时就知道,如果我们能通过这些体系和思想取得成功,创造出的技能将会具有让人难以置信的变革力量。所以我们 20 年前就在思考了,这样会有什么正面和负面的后果。正面的后果就是惊人的科学成果,比如 AlphaFold、科学和数学范围的科学发现。同时我们也需求确保这些体系是可理解的和可控的。
为了得到经过更为严格评估的体系,人们提出了得多想法。但我们目前还没有足够好的评估方法和基准可以确定体系是否欺骗了你、体系是否会泄漏自己的代码等不良行为。还有些人提出可以应用 AI 来辅助分析,就是应用应用范围窄的 AI(narrow AI)。它们不具备通用进修能力,而是专门为某个特定范围专门设计的;它们可以帮助人类科学家分析更通用的体系的行为。我以为一个有很大潜力的方向是创造强化型沙盒或模拟环境——它们的网络安全经过增强,可以把 AI 困在其中,也能保证外部攻击者无法进入。这样一来,我们就可以在这个沙盒中自由地做实验了。另外也有些人在研讨让人类能够理解这些体系建立的概念和表征。
时间线和智能爆炸
Dwarkesh Patel:您以为 AGI 会在什么时候出现?
Demis Hassabis:我没有具体的时间预测,因为我感觉还有得多未知和不确定,而且人类的聪明才智和努力总是会带来惊喜。这些都能够导致时间线变化。但我要说,在我们 2010 年创立 DeepMind 时,我们以为这个项目需求 20 年时间。实际上,我觉得我们正按预期向目标靠近。这很了不起,因为通常的 20 年计划总是还要另外 20 年。如果我们在未来十年内拥有类似 AGI 的体系,我不会感到惊讶。
Dwarkesh Patel:如果有了 AGI,您会应用吗?您可以将其用来进一步加速 AI 研讨。
Demis Hassabis:我以为这是有能够的。这要看我们做出什么决定。我们需求作为一个社会来决定如何应用第一个新生的 AGI 体系或甚至 AGI 原型体系。即便是我们现有的体系,我们也需求考虑其安全方面的影响。
Gemini 的训练
Dwarkesh Patel:目前 Gemini 的开发遇到了什么瓶颈?既然规模扩张法效果很好,为什么不直接把它增大一个数量级?
Demis Hassabis:首先,有实践方面的限制。一个数据中心究竟能有多少算力呢?实际上,这会遇到异常乏味的分布式计算难题。幸运的是,我们有最好的研讨者在研讨这些难题以及如何实现跨数据中心训练等等。还有硬件方面的难题,我们有自己建立和设计的 TPU 等硬件,也会应用 GPU。至于规模扩张的效果,也不是总如魔法般有效。扩大规模时也还需求扩张超参数,每一种规模都需求各种不同的创新。不是每一种规模都能重复一样的配方。我们必须调整配方,而且这在某种程度上就像是搞艺术。另外还需求获得新的数据点。
Dwarkesh Patel:在 Gemini 的开发过程中,您觉得最出人意料的是什么?
Demis Hassabis:我得说没什么异常出人意料,但是能在那种规模上进行训练并从一种组织化的角度去研讨它,是异常乏味的。
Dwarkesh Patel:得多人以为其它实验室的模型的计算效率能够比 DeepMind 的 Gemini 高。您怎么看?
Demis Hassabis:我以为情况并非如此。实际上,Gemini 应用的算力差不多,也许就比传闻中 GPT-4 应用的算力稍多一点。
Dwarkesh Patel:对于 2010 年刚创立 DeepMind 的您来说,现在的 AI 进展中哪一点最让您感到意外?
Demis Hassabis:你也采访过我的同事 Shane。他总是从计算曲线方面进行思考,也常常将 AI 与大脑进行比较——有多少神经元或突触。但现在我们已经差不多到大脑中神经突触数量的数量级和那样的计算量了。
但我以为,更根本的成绩在于,我们关注的重心始终是通用性和进修。这始终是我们应用任何技能的核心。因此我们把强化进修、搜寻和深度进修看作是三种可以扩张并且可以异常通用的算法,无需大量人工设计的人类先验知识。这不同于 MIT 等在当时建立的 AI——它们是基于逻辑的专家体系,需求大量人工编码。事实证明这种做法是错误的。我们在早期看出了发展趋势。我们应用游戏作为验证平台,发现结果还不错。最后也取得了巨大的成功。AlphaGo 等成功给其他许多人带去了启发。当然,还有我们google研讨院和google大脑的同事发明的 Transformer,这种深度进修方法让模型可以处理海量数据。这些技能就是如今成果的基础。这些都是一以贯之的传承。我们当然不能够预测出每一次技能转变,但我以为我们前进的总体方向是正确的。
治理超人类 AI
Dwarkesh Patel:您怎么看待超人类智能的前景?它仍然受私有企业控制吗?具体应该如何治理它?
Demis Hassabis:我以为这种技能将会带来重大影响。大于任何一家公司,甚至大于任何一个行业。我以为这必需来自民间社会、学术界、政府的许多利益相关者的大规模合作。好消息是,随着近期聊天机器人等技能的广泛应用,社会中其它一些部分被唤醒了,他们开始认识到这种体系正在到来并且他们也将与这些体系互动。这很不错。这为良好的对话打开了得多大门。
其中一个例子是几个月前在英国举办的 AI Safety Summit。我以为这是一次巨大成功。我们需求进行国际间的对话,要让整个社会一起来决定我们要应用这些模型做什么、我们希望怎样应用它们、我们希望它们不被用于什么目的。
Dwarkesh Patel:现在的 AI 体系已经异常强大,为什么它们的影响没有更大呢?
Demis Hassabis:这说明我们依然还处在这个新时代的起点。目前的这些体系已经有一些乏味的用例,比如应用聊天机器人体系来为你做总结、完成一些简单的写作任务、进行样板式写作;但这些只是我们日常生活的一小部分。
我以为,对于更一般化的用例,我们仍然需求新的能力,比如规划和搜寻,另外还需求个性化、记忆、情境记忆等。因此长上下文窗口是不够的,还要记住 100 轮对话之前我们说了什么。一旦这些技能成熟了,我们就会看到新的用例,比如能帮助我们找到更好更丰富材料(书、电影、音乐等)的新推荐体系。那样我就会每天应用这类体系。我以为我们目前只是触及了这些 AI 助理的表面,其实未来它们能为我们的一般日常生活和工作做更多事情。另外用它们做科研也不足够可靠。但我相信未来当我们决定了事实性和定基等成绩之后,这些 AI 体系就能变成天下上最好的研讨助理。
Dwarkesh Patel:说到记忆,您在 2007 年有一篇论文谈到记忆和想象(imagination)有某种程度的相似之处。现在也有人说目前的 AI 就只是记住了些东西。您对此怎么看?只靠记忆就足够了吗?
Demis Hassabis:在有限的情况下,也许记住一切就够了,但这样无法泛化到原有的分布之外。但很明显 Gemini 和 GPT-4 等模型确实能够泛化到新的情况。至于我的那篇论文,我实际上表达的是:记忆(至少是人类记忆)是一种重建的过程。记忆不是磁带式的精确记录。我们的大脑是把看起来熟悉的东西组合到一起。这让我思考想象能够也是这么回事。只不过这时候我们组合的是语义组件(semantic component)——你的大脑将它们组合起来并且以为结果是全新的。我以为我们目前的体系依然缺少这种能力——即把天下模型的不同部分拿出来组合到一起来模拟新东西,从而帮助用来执行规划。这就是我所说的想象。
安全、开源和权重安全
Dwarkesh Patel:你们有计划和其它两家主要的 AI 实验室一样从某种程度上放出 Gemini 的框架吗?
Demis Hassabis:是的,我们内部已经做了大量的检查和平衡,我们也会开始发布一些东西。未来几个月,我们有得多博客文章和技能论文发出来。
Dwarkesh Patel:如何保护模型的权重,使其不被恶意盗用?
Demis Hassabis:这涉及到两个方面。一是安全,二是开源。安全异常关键,尤其是网络安全。我们 Google DeepMind 异常幸运。因为我们在google的防火墙和云的保护之下,这可以说是天下上最好的安全防护。除此之外,我们 DeepMind 还有特定的措施来保护我们的代码库。所以我们有双重保护。而且我们还在不断提升和改进,比如应用强化沙盒。我们也在考虑特定的安全数据中心或硬件解决方案。所有的前沿实验室都应该这么做。
开源也很重要。我们是开源和开放科学的大力支持者。我们已经发布了数千篇论文,包括 AlphaFold、Transformer 和 AlphaGo。但对于核心的基础技能,我们会考虑如何阻止恶意组织、个人或流氓国家,防止他们应用这些开源体系去实现他们的有害目的。这是我们必须回答的成绩。我不知道这个成绩的答案,但我也没能从支持开源一切的人那里听到让人信服的答案。我以为这其中必须要有些平衡。但很显然这是个很复杂的成绩。
Dwarkesh Patel:在安全方面,其它一些实验室有自己的专攻范围,比如 Anthropic 在研讨可解释性。现在你们有了最前沿的模型,你们也会在安全方面做前沿研讨吗?
Demis Hassabis:我们已经开创了 RLHF 等技能,这不仅能用于提升性能,也能用于安全。我以为得多自我博弈想法也有潜力用于自动测试新体系的边界条件。部分成绩在于,对于这些异常通用的体系,它们的适用范围异常广。我以为我们将需求一些自动测试技能以及之前提到的模拟和游戏、异常拟真的虚拟环境。在这方面我们有很长的研讨历史。另外,很幸运google有大量网络安全专家和硬件设计师。这也是我们可以获得的安全保障。
多模态和进一步的进展
Dwarkesh Patel:对于 Gemini 这样的体系,目前与它们默认的交互方式是通过聊天。随着多模态和新能力的加入,这种情况会如何改变?
Demis Hassabis:在理解完整的多模态体系方面,我们还处于起步阶段。与其的交互方式将与我们现在的聊天机器人大不相同。我想明年的下一代版本能够会具有一定的环境理解能力,比如通过相机或手机。然后我可以想象下一步。模型在理解方面会变得越来越顺畅。我们可以应用视频、声音甚至触碰。如果再考虑到应用传感器的机器人,天下将会开始变得激动人心。我想未来几年,我们就能看到多模态对机器人学科意味着什么。
Dwarkesh Patel:Ilya 曾在播客上跟我说过 OpenAI 放弃研讨机器人的原因:在该范围的数据不够,至少在那时候是如此。您以为这对机器人的发展而言依然还是一个瓶颈吗?
Demis Hassabis:我们的 Gato 和 RT-2 Transformer 取得了激动人心的进展。我们一直以来都很喜欢机器人。我们在这一范围也有出色的研讨成果。我们仍然在进行机器人研讨,因为我们其实喜欢这一事实:这是一个数据稀少的范围。我们以为这会是一个异常有用的研讨方向,其中涉及到的课题包括采样效率和数据效率、从模拟环境迁移到现实的迁移进修。我们一直在努力研讨。
实际上 Ilya 说得对,机器人很有挑战性就是因为数据成绩。但我想我们会开始看到大模型可以迁移到机器人范围、在异常普适的范围进修,并且可以将 Gato 这样的 token 当作是任意类型的 token 进行处理。这些 token 可以是动作,也可以是词、图块、像素等等。我心中的多模态就是这样。但一开始,训练这样的体系比简单直接的文本语言体系更困难。我们之前聊迁移进修时也谈到了,对于一个真正的多模态体系,一个模态是可以从其它模态获益的。比如如果模型更加理解视频,其语言能力也会有所提升。我们最后会有一个这样的更加通用、更有能力的体系。
Dwarkesh Patel:DeepMind 发表了许多乏味的研讨成果来加速不同范围的科学研讨。为什么要建立这样的特定范围的方案呢?为什么不等到一二十年后让 AGI 来做?
Demis Hassabis:我想我们并不知道 AGI 将在何时到来。而且我们过去也常常说,我们不必等到 AGI,也能做出些出色的成果来造福这个天下。我个人也对 AI 在科学和医疗范围的应用充满热情。而且你可以看到我们的多篇 Nature 论文关注了多个不同的范围。有得多激动人心的研讨方向能影响这个天下。作为拥有数十亿用户的google的一分子,我们很荣幸有这样的巨大机会,可以将我们取得的进步快速提供给数十亿人,帮助改善、丰富和助力他们的日常生活。
从 AGI 的角度看,我们也需求检验我们的想法。我们不能指望闭门造 AI 就能推动发展,因为这样只会让内部指标偏离人们真正会关心的真实事物。真实天下应用能提供大量直接的反馈,可以让我们知道体系是否在进步或者我们是不是需求提高数据或样本效率。因为大多数真实天下难题都需求这样。这能不断推动和引导你的研讨方向,以确保它们走在正确的道路上。当然,另一方面是,即便是在 AGI 诞生之前得多年,天下也能从中获益。
Google DeepMind 内部
Dwarkesh Patel:Gemini 的开发工作涉及到google大脑和 DeepMind 等不同机构的合作。这其中遇到了哪些挑战?产生了哪些协同效应?
Demis Hassabis:过去的一年是很棒的一年。当然,挑战是有的,和任何大型整合工作一样。但我们是两个天下级的组织,各自都发明了许多重要技能,从深度强化进修到 Transformer。因此,我们的得多工作就是将这些汇集起来,实现更加紧密的合作。其实我们过去常常合作,只不过之前是针对具体项目的合作,现在则是更加深度和广泛的合作。
Gemini 是这一合作的首个成果,其实 Gemini 这个名字就暗含了孪生兄弟姐妹的意思。当然,也有得多事情的效率更高了,像是把计算资源、想法和工程开发工作汇集到一起。我们目前就处于这个阶段,基于天下级的工程开发来建立前沿体系。我以为进一步的合作是有意义的。
Dwarkesh Patel:您和 Shane 创立 DeepMind 的部分原因是你们担忧 AI 的安全成绩。您以为 AGI 的到来有现实的能够性。您感觉来自google大脑的研讨者也有类似看法吗?这个成绩方面是否存在文化差异?
Demis Hassabis:没有。总体而言,这就是我们在 2014 年与google携手的原因之一。我以为,google和 Alphabet 整体(不只是google大脑和 DeepMind)都以负责任的态度认真对待这些成绩。差不多我们的座右铭就是大胆尝试这些体系,同时要负起责任。我显然是一个技能乐观主义者,但我希望我们对技能保持谨慎,毕竟我们共同为这个天下带来的东西具有变革性的力量。我以为这很重要。我以为这将成为人类发明的最重要的技能。
Dwarkesh Patel:最后一个成绩。2010 年时,当其他人还觉得 AGI 很荒谬时,您就在思考这个终极目标了。现在随着这类技能的慢慢起飞,您是怎么想的呢?您是否已经在您的天下模型中预想到过?
Demis Hassabis:是的,我确实已经在我的天下模型中预想到过这些,至少是从技能角度。但很显然,我们不一定预料到了公众会在如此早期阶段参与进来。像是 ChatGPT 等一些应用在某些方面还有所欠缺,但人们已经有浓烈的兴趣去应用它们了。这一点挺让人意外的。
另外还有更加专业化的体系,比如 AlphaFold 和 AlphaGo 以及一些科学方面的成果,但它们在公众关注的主线发展之外,也许几年后公众会关注到它们,那时候我们能够就有了更加普遍适用的助理类型的体系。这会创造出一个和现在不一样的环境。而且情况能够看起来会更混乱,因为会有得多事情发生,也会有得多风险投资,好像所有人都失去理智一样。
我唯一担忧的是我们能否负责任地、深思熟虑地、科学地对待这种情况,应用科学方法来应对。也就是我说的乐观但谨慎的方式。我一直都相信这是我们应对 AI 这类事物的方式。我希望我们不会迷失在这场快速袭来的巨大热潮中。
参考链接:
https://www.dwarkeshpatel.com/p/demis-hassabis
Here is my episode with @demishassabis
We discuss:
– Why scaling is an artform
– Adding search & AlphaZero type training atop LLMs
– Making sure rogue nations can't steal weights
– The right way to align superhuman AIs & do an intelligence explosionLinks below. Enjoy! pic.twitter.com/MW3lz06eta
— Dwarkesh Patel (@dwarkesh_sp) February 28, 2024