用AI对齐AI?超等对齐团队领导人详解OpenAI对齐超等智能四年计划

超等对齐团队领导人Jan Leike播客:四年处理超等智能对齐课题,OpenAI靠什么?

前段时间,OpenAI 宣布成立了一支新团队「Superalignment(超等对齐)」,引起了广泛关注,详见机器之心报道《四年、投入 20% 计算资源,OpenAI 成立专门团队构建处理对齐课题的超强 AI》。该团队由 Jan Leike 和 Ilya Sutskever 领导,还囊括了一些顶尖的研讨者,其目的是在四年内处理超智能 AI 的对齐课题,即搞清楚如何构建一种值得信任的人类水平的研讨器,然后将其用于处理对齐课题。但这项计划究竟涉及什么内容?

近日,专注于 AI 风险(尤其是人类的灾难性生存风险)的播客节目 AI X-risk Research Podcast(AXRP)邀请到了超等对齐团队的领导者之一 Jan Leike 并与其进行了两小时的长谈。Jan Leike 在其中分享了 OpenAI 这个新成立的超等对齐团队的目的和研讨策略以及许多细节。机器之心整理了这期播客的转录稿,以飨读者。

用AI对齐AI?超等对齐团队领导人详解OpenAI对齐超等智能四年计划

播客地址:https://podcasts.google.com/feed/aHR0cHM6Ly9heHJwb2RjYXN0LmxpYnN5bi5jb20vcnNz/episode/MThlYjczZGItZmYxZS00MDU0LWJmOGYtZGRhNWM0ODkzNGM0

探讨的主题包括:

超等对齐团队

什么是人类水平的主动对齐研讨器?

人类水平的主动对齐研讨器与超等智能之间的差距

它有什么作用?

递归式的自我提升

如何将 AI 打造成 AI 对齐研讨器

可扩张监视

寻找不良的行为和内部机制

故意训练非对齐模型

四年的截止时间

如果必要更长的时间怎么办?

超等对齐团队与

超等对齐团队的后勤支持

泛化课题

补充性的研讨

Jan 为什么感到乐观?

LLM 中的长期智能体

LLM 能理解对齐吗?

关注 Jan 的研讨事务

Daniel Filan:大家好。这一期节目与我对话的是 Jan Leike。他曾在 DeepMind 事务过四年时间,研讨的是根据人类反馈的强化学习和递归式奖励建模。2021 年初他加入了 OpenAI,现在他是 OpenAI 最近宣布的超等对齐团队的领导者之一。欢迎来到 AXRP。

Jan Leike:十分感谢您邀请我。

超等对齐团队

Daniel Filan:不客气。首先呢,我们来谈谈最近宣布成立的超等对齐团队。有些人能够还没听说这件事或没读过那篇博客,您能简单总结一下这个团队是什么以及要做什么吗?

Jan Leike:当然,我很乐意。基本上来说,我们是给自己设定了一个雄心勃勃的目的:在未来四年内处理超等智能的对齐课题。也就是在 2027 年年中之前。Ilya Sutskever 也加入了这个团队,他是 OpenAI 的联合创始人和首席科学家。他和我共同领导这个团队。而且目前 OpenAI 承诺确保将 20% 的算力投入到对齐超等智能的研讨事务。我们还在为这方面的事务聚拢人才。我们要招良多人。我们尤其想要招募还没怎么研讨过对齐课题的机器学习研讨者和工程师,因为我们觉得这方面还有很大的空间可让他们贡献力量,也能产生十分大的影响。在我们如何处理对齐课题方面,我们有一个总体规划,其中涉及训练一个大致人类水平的可主动事务的对齐研讨器,然后让这个主动对齐研讨器来寻找对齐超等智能的办法。

Daniel Filan:嗯嗯。

Jan Leike:因此,对我们来说,一大要点是找到对齐这种主动对齐研讨器的要领。

什么是人类水平的主动对齐研讨器?

Daniel Filan:嗯嗯。我也很想晓得这种要领。在那篇博客中,你运用了一个短语「人类水平的主动对齐研讨器」,对吧?我应该将它想象成什么?那是什么?

Jan Leike:是的。基本上讲,我们是但愿把许多对齐方面的相关事务(尽能够地)转交给一个主动体系。典型情况下,当你运用 LLM 时或如果你正在构建一个通用 AI 体系,你晓得它们所拥有的技能组合并不一定和人类一样。对吧?它们在某些方面会强得多,就像现在的语言模型在翻译或知晓事实等方面更强一样。另一方面 AI 体系在另外一些事务上却弱得多,比如现在的语言模型在算术方面的能力。因此,课题就变成了:我们可以将哪些类型的事务转交给 AI 体系,又依什么顺序进行?这样一来,可以预期人类会将重心更多地放到我们无法转交的事务上。在这一进程中,AI 体系所完成的事务会占到整体事务中越来越大的份额,而人类研讨者就能越来越有效地做出真实的进展。

Daniel Filan:嗯嗯。所以我可以这样想吗:你们要做的不是先替代一个 OpenAI 对齐团队员工的事务,然后再替代另一名员工的事务,而是替代每个员工都做的一种事务,然后再替代另一种,差不多就是这样?

Jan Leike:是的。这就是我设想的方式。而且我觉得,为了真实减少整个体系的事务,我们必要将 90% 或 99.9% 的事务都主动化,因为这样的话研讨输出的效率才能提升十倍、百倍、千倍。

Daniel Filan:嗯嗯。你觉得 AI 体系会做哪些类型的事务?

Jan Leike:宽泛地说,我会把它们分为两大类。一类是看起来像传统机器学习工程开发研讨的事务,这类事务的目的是让 AI 体系的能力更强。另一类是对齐方面必须做的其他事务。所以,第一类事务就像是实现机器学习模型,开展实验并观察结果。第二类则像是…… 举例来说,确定必要进行哪些实验来提升可扩张监视(scalable oversight),或怎样在可解释性方面取得进展。这些是十分宽泛的、高层级的课题。

但也有良多十分涉及细节的课题,比如假设你正在研讨一个特定主题,你刚刚写好一篇论文,然后你会想:「好吧,如果我们想继续这条路线,我们接下来必要做什么?」我预计,通过主动设计和运行实验,机器学习整体上会十分善于处理第一类事务。而我们的事务不同,是加速对齐方面的研讨进程,目的是找到实现第二类事务主动化的要领。

Daniel Filan:嗯嗯。所以你把第二类事务视为完整的堆栈,从构想研讨方向到提出能够的事务要领,再一直到「我现在运行什么脚本」的层级?

Jan Leike:是的。你可以问我:如果我觉得对齐研讨与机器学习研讨如此相似,那么第二类中到底有多少事务呢?但我觉得实际上有良多,并且它们的作用很大,因为对齐这个课题仍然十分模糊和令人困惑。我觉得,总的来说,对于最有但愿的方向或我们下一步应该做什么,专家们存在良多分歧。因此,如果我们在这方面做的推进事务更多,就能真实带来切实的巨大影响。

Daniel Filan:好,很棒。

Jan Leike:这基本上就是劝说研讨者加入该领域的说辞,对吧?

Daniel Filan:是呀。

Jan Leike:我们仍在努力弄清楚最基本的东西。这是一个宽泛的仍待处理的研讨课题。我们不晓得如何对齐超等智能,即比人类聪明得多的体系。

Daniel Filan:很有道理。就像是,我们想运用 AI,就好像我们想招募更多人一样。

Jan Leike:是那样。

Daniel Filan:好的。

Jan Leike:但运用 AI 有一个很美妙的方面,就是它的扩张性能比人类更好更快,因为你只必要购买更多 GPU 就能获得更多 AI 能力。

人类水平的主动对齐研讨器与超等智能之间的差距

Daniel Filan:有道理。我有个课题:你谈到了人类水平的对齐研讨器,但在 AI 领域,良多模型在良多事情上都不是人类水平,对吧?你刚提到了聊天模型。我觉得它们在知识的广度上达到了超人级别。我觉得任何人都很难像 GPT-4 那样知晓那么多事实。但它们在算术方面又不及人类,假如那个人类可以运用纸笔的话,你懂的。所以,「人类水平」这个限定标准有多重要?对于各种事务,如果 AI 在其中一些上已经超越人类,你觉得这会是一个课题还是说这样其实更好?

Jan Leike:嗯,我觉得课题其实在于在对齐研讨事务上运行那些体系的风险有多大?因为如果它只是知晓良多事实,那就不用特别可怕,但我们真实必要晓得的是,如果我们让该体系接管部分乃至几乎所有的对齐研讨,它会对我们撒谎吗?它会试图欺骗我们吗?它会试图趁机接管吗?因为现在,它做的事情是如此之多,以至于我们自身已经无法看清全貌。所以,课题在于为此我们必要怎样的技能组合,相比之下,为了在对齐研讨方面获得大量辅助,我们又必要怎样的技能组合?

如果你把这个课题放大细看,你会看到哪些是我们必要担心的东西?比如说,模型的表现有多好?这个模型在编造真实连贯一致的谎言吗,或者具有欺骗性,像是假装做某事或相信一件事但是实际上想做另一件事?我觉得这方面另一个真实关键的能力是自我渗透(self-exfiltration)。也就是模型能多好地打破安全预防措施、访问自身权重并尝试将其复制到互联网上的其他地方?或者说服一位有权访问这些权重的工程师,让其将这些权重下载下来发送到其他地方?这样我们就可以确切地衡量这些模型在那方面的表现,然后我们进行比较,看它究竟能为对齐研讨提供多大帮助?

Daniel Filan:嗯嗯。所以大概的意思是:你但愿模型不要太擅长那些可怕的事务?

Jan Leike:没错。

Daniel Filan:嗯。这实际上涉及对这一研讨方向的一种批评意见,大概是说:如果我想要人类水平的主动对齐研讨器,那么它必要十分聪明,它必要有创造力,它必要能思考我们还未考虑过的东西,它必要有能力针对目的进行规划 —— 为了做到这一点,必要做良多并不显而易见的事情,必要学习了解这个世界…… 而且它还要十分善于思考非对齐情况,以处理非对齐课题。所以有人能够会想:「这些东西组合起来本质上是很可怕或危险的。」那么我猜能够课题就在于:如果你的事务是构建某种东西,然后你对齐了这个主动对齐研讨器,那么你还有必要处理的课题吗?

Jan Leike:嗯。我觉得,究其根本,这是一个必要实证的课题。当扩张模型时,我们其实很难晓得该以什么顺序解锁什么技能。现在有良多研讨事务的目的是预测涌现能力,我对此感到十分兴奋。我觉得这将使我们有机会预测下一代预训练模型的样子。但我觉得我们可以提出一些高层次的论点。举一个很清楚的例子:一旦你拥有了如此好的模型,你就可以将大量对齐研讨交给它,那么它难道不也能提升自己的能力吗?或者它可以进行大量机器学习研讨,通过运行实验来提升计算效率等指标。此后不久,你就能运用它了,并能预训练一个能力强得多的模型。

我觉得从表面看,这个故事听起来很吸引人。但我觉得,在实践中这会复杂得多,因为你不会每周都做一次大型预训练。这种训练通常必要几个月时间,所以你在几个月后才能得到结果。与此同时,你仍然必要运用这个体系。我还在想另一件事:还有一个悬而未决的课题,即在实际获得计算效率方面还有多少容易取得的成果。最后,我要提出的观点是,相对于对齐社区而言,目前正在努力让 AI 更快更强的社区已经相当大了。所以,如果你想将这许多事务主动化,让这两个社区都平等获益,那么我觉得对齐社区获得助益会大得多,因为这个社区更小,这样一来我们就不必再执行这些事务了。

Daniel Filan:当然。我是这么理解这个计划的:我们将创造出主动对齐研讨器,然后它能帮助对齐。而为了创造出主动对齐研讨器,还必要许多十分好的智能功能,那么为了实现它,它必要处理哪些我们本不必要处理的课题?

Jan Leike:我不确定我是否理解你的课题。也许我可以回答你问的上一个课题的后半部分。

Daniel Filan:当然。

Jan Leike:也就是:长期目的是什么?创造力又如何?在我看来,似乎可以说语言模型或人工智能总体上已被证明比人类更具创造力。如果你看看扩散模型生成的图像或从某个预训练基础模型做些采样,你能看到良多十分疯狂的东西,感觉很有创造力。我觉得你很难让人类个体或小团体做出同样的东西,就是因为这些模型已经看过了人类诉说的所有东西以及互联网上的所有图像。因此,它们实际上是从整个分布进行采样。而人类个体通常无法做到。

然后来说说长期目的,我觉得完全不必要长期目的,因为我们可以将相当小的范围的事务交给 AI 体系;如果它们能真实处理这些事务,那么它们就会十分有用,对吧?这些事务的范围可以十分小,比如「这是我们刚写的论文,请建议后续的一些步骤或者一些要做的新实验」。如果你有一个可以提这些课题的一流研讨器,那么它就不必追求长期目的,对吧?它必须做的只是优化接下来的几千个 token。如果它能做得十分棒,那你就能从中收获良多价值。

Daniel Filan:我想是这样。这似乎与实现 99.9% 主动化的对齐研讨的目的存在矛盾,对吧?因为我会想「我们必要什么才能得到对齐的 AI?」…… 我觉得这是对齐研讨方面的一大难题。

Jan Leike:没错。我想说的是,通过出色地完成事务,体系能够提供良多价值,对吧?而你想要的是让体系完成所有这些事务的组合。某些事务类似于「写出实现这些实验的代码」,另一些事务则类似于「观察结果,告诉我你看到了什么或者建议接下来要做什么」。现在,当你完成了这些事务后,你可以运用一些通用配方来组合它们,正如人们运用 Auto-GPT 或语言模型程序做的那样,其中每一个事务都很小并且独立,因此体系不必要追求长期目的。

举个例子,OpenAI 最近有一项事务《Let's Verify Step by Step》研讨了在数学事务上运用基于过程的反馈,其不是基于「体系是否得到了正确答案」而训练,而是执行强化学习 —— 基于人类对证明中每一步的反馈来训练一个奖励模型。结果表明,这种要领要有效得多,因为这能为 AI 体系提供更加细节的反馈,让 AI 体系远远更加细粒度的学习。哪个更有竞争力,是运用端到端强化学习,还是通过长期目的直接得到答案?这还十分不清楚。但至少,你可以运用这种将课题分解成逐步事务的设置,让体系按人类完成事务的方式做良多真实有用的事,然后再将它们组合起来。

Daniel Filan:嗯。你提到的一个小事务是「观察结果然后决定接下来做什么」。我感觉,你的头脑中必定有一幅大图景,你会想:「对于我要在未来四年内处理超等对齐课题的目的,接下来做哪个项目最有用」,对吧?

Jan Leike:对的。但你不会这样做,因为这样就要花四年时间来努力优化和分配事务能够更像是这样,嗯,就是在 prompt 中添加一些更广泛的目的和背景。但是,当通过强化学习或根据人类反馈的强化学习来提升体系时,那么就不必等到该研讨项目结束才能确定它是否做好了。课题在于,当运用人类来塑造奖励时,情况会是「这看起来像是一个好方向吗,是不是优于我能想到的其他方向?」因此,我觉得这里的总体目的不是构建能力最强的主动对齐研讨器 —— 我们也许可以运用我们有的技术做到这一点,而是构建一些十分有用的能极大扩张的东西;最重要的是,这些东西是我们信任的和足够对齐的,让我们可以放心地把事务交给它们。

因此,我们为这些过程引入相当多的低效率,我们本质上是通过这种训练方式极大拉低模型的能力,我们就像是说:「好吧,我们为它提供这些细化分解的事务,现在它可以执行那些事务,但如果我们想以端到端的方式训练它,它的能力会更强。」我觉得这并不重要。这就是人们通常所说的对齐税(alignment tax)。如果你正和其他公司争夺市场,那么对齐税会十分重要:假如我正在构建一个聊天机器人,而我的聊天机器人更对齐,但能力似乎要差许多。那么在市场中竞争会很艰难。但如果你有一个主动对齐研讨器,那么这个主动对齐研讨器不必在市场中竞争,它只需对我们有用即可。这样,我们可以避免支付更高的税,因为我们没有替代品,或者真实的替代品是雇用更多人,而这并不能很好地扩张。

它有什么作用?

Daniel Filan:嗯嗯。对于之前我想问的课题,我想到了另一种提问方式:你但愿主动对齐研讨器处理什么课题?

Jan Leike:它最终应当处理这个课题:「我们应当如何对齐超等智能?」

Daniel Filan:好的。所以这一思想是不是这样:我们处理如何在大致人类水平上对齐的课题,然后随着 AI 变得更聪明并且开始处理这些课题,还会出现其他课题?

Jan Leike:是的,基本上是这样。所以我想,我和其他许多人真实相信的对齐超等智能的实际处理方案能够与我们现如今的要领十分不同。如果你看看现今的 ChatGPT 是如何对齐的,你会发现就是大量的根据人类反馈的强化学习。人们普遍相信,我也相信,这种方式无法扩张,因为这种方式假设人类真实详细理解体系的事务方式。如果该体系正在做大量对齐研讨 —— 你可以想象有数以百万计的等价于虚拟人类的东西,那么你就无法看到其全貌并给出详细的反馈。这是一项十分困难的事务,你会遇到良多重要的错误。我们现在正研讨的技术是对其进行扩张,并对齐一个大致人类水平的对齐研讨器,它可以做这些困难事务,但效果和人类差别不大,其中举个例子,可扩张监视的步骤和后续处理是根据人类反馈的强化学习的自然延续。

Daniel Filan:那是什么?

Jan Leike:可扩张监视?

Daniel Filan:嗯。

Jan Leike:我通常将可扩张监视(scalable oversight)定义为一系列让我们可以运用 AI 来辅助人类评价困难事务的想法和技术。

Daniel Filan:好的。所以可扩张监视可以运用根据人类反馈的强化学习进行构建,也就是 RLHF。

Jan Leike:是的。可扩张监视的典型示例包括辩论、递归奖励建模、迭代蒸馏和增幅等。对此人们有良多思路。回到你最初的课题,我实际上想说的是,如果我们真的在对齐超等智能(这个体系比人类聪明得多,思考速度更快,运行规模更大),还会引入许多其他课题,尤其是因为它十分通用,可以完成良多事务,然后你必须弄清楚如何将其对齐,不仅是在少量对齐研讨事务上,而且必要考虑其他一切事物。而且你还必要相信自己成功了,信心程度要超过你通过一些实验评价获得的信心。

我其实并不晓得那是怎样的,我不觉得有人晓得,但如果我们有一些形式化的验证,那一定会激动人心。也许我们已经找到了某种有理论保证的学习算法。我甚至不晓得什么是能够的,什么是理论可行的;如果你有富余的脑力,可以探究一下这个课题。但这些事情十分不同于我们现在要做或未来要做的事情。我觉得大致人类水平的对齐研讨器也不会一开始就研讨这些课题。相反,我们但愿它们搞清楚如何更好地对齐其自身的下一次迭代,然后可以向这个课题投入更多脑力,然后取得更多的进展并提出更广泛的处理要领。这样你就或多或少开始了,最终可以得到一个可以做十分不同的研讨的体系,然后让我们可以对齐超等智能。

Daniel Filan:了解了。所以你们一旦运行起这些人类水平的 AI 对齐研讨器,你还会有事务吗?OpenAI 还会有一个人类的超等对齐团队吗?

Jan Leike:嗯,好课题。老实说,我很高兴被 AI 取代。但从历史上看,通常发生的情况就是我们之前提到的:AI 助理完成 99% 或 99.9% 的事务,然后我们就完成剩下的事务。我真实看好的是确保人类参与其中或保持对 AI 体系行为的控制,即使长远之后我们早已无法理解它们的所有行为。有些人仍然会尝试从高层面理解 AI 的行为。那不一定非得要 OpenAI 的超等对齐团队去做。这能够必要十分不同于现在情况的技能组合。但我觉得人类应该始终以某种方式参与其中。

递归式的自我提升

Daniel Filan:好的,明白了。OpenAI 在一些博客中提到了一些事情。首先是这个想法:安全与能力实际上是密切相关的。为了处理对齐课题,我们必要聪明的模型。另一件事是人们但愿避免发展太快。在博文《Planning for AGI and beyond》中有一句:「有足够能力加速自身进步的 AGI 能够会导致世界发生重大变化。」。后面又写道:「实现安全的更简单要领是减慢发展速度。」参阅机器之心报道《OpenAI 发布通用人工智能路线图:AGI 比想象中来得更快》。我想问的是,如果我们造出了这种十分聪明或人类水平对齐研讨器,以至于我们可将对齐团队的效率提升十倍或百倍,那么这最终会导致 AI 开始递归式地自我提升吗?

Jan Leike:确实必须如此,对吧?递归式的自我提升与显著提升对齐能力是相辅相成的。我个人觉得快速发展是更合理的能够性,我们也应该做好应对这种情况的准备。如果这些不会发生,我也乐见其成。

Daniel Filan:会有多快?

Jan Leike:根本上讲,我不晓得。但你可以用 AlphaGo 或 Dota 或星际争霸等其他机器学习项目做一下对照,这些体系每一周都有很大提升。是的,很显然究竟会发生什么还有很大的不确定性,但我觉得我们绝对应该为这种能够性做好计划。如果这种情况确实发生,为了跟上其发展,一种好要领就是运用主动对齐研讨器,它们每周都能完成成千上万年人类工时的事务量。人类自身根本不能够做到。

如何将 AI 打造成 AI 对齐研讨器

Daniel Filan:好的。现在我们已经对人类水平的主动对齐研讨器有了更好的了解,你能说说你们计划怎么造出它吗?

Jan Leike:当然,这基本上必要两部分。第一部分是一个做这件事的足够聪明的体系,第二部分是将它对齐使其真实做这件事。我觉得这两个部分不是分立的,我觉得它们是紧密关联的。我个人并未研讨第一部分的课题,我觉得那必定会发生,而且良多人正努力让它成为现实。实现这一目的的能够方式有良多,比如就可以直接训练一个大得多的模型,最后发现它就已经足够聪明了。至于第二部分,那就是我真实感兴趣的部分。现在课题就变成了:假如我已经有了真实聪明的预训练模型,又该怎样以我们期望的方式做对齐研讨呢?或者更重要或更关键的是,当运用它时,你怎么晓得你是否可以足够信任它?

因为如果你把这种事务交给 AI,聪明的 AI 体系为了增强自身或其他相关体系的能力从而在未来获得更大权力(比如获得自我渗透的权限),就能够为你反馈有利于它的答案和技术,让你去实现。而我们必要做的是:针对事务对齐它并利用其能力尽能够地完成事务。这就是我要说的,我们必要许多对齐训练要领。然后我们还必要学会区分:一类模型是真实与事务对齐的,会尽力做好对齐研讨,为我们提供帮助,它是诚实的,是寻找真相的模型;另一类模型会假装是前一类模型,但实际上却想要接管这个世界或进行自我渗透等等。这是两类不同的体系,一类是真实对齐的体系,一类是欺骗性的非对齐体系。

我们事务的一个重要部分是找到分辨这两类体系的要领。这将必要大量所谓的验证要领。这不会是我们训练采用的要领,AI 体系不能直接通过选择来通过验证测试。这些要领应该为我们提供某种独立的信号,让我们晓得「两个模型中哪个是对齐的」。这方面的例子是可解释性研讨。如果我查看模型内部时找到证据表明它在秘密针对我们,那么它就无法通过验证测试。还有一种既可以是训练也可以是验证的技术 —— 这取决于具体设置,即由易到难的泛化课题。你能理解和提升模型的能力从而将其从我们可以监视的简易课题泛化至我们难以监视的困难课题吗?如果你能做到这一点,你就可以只在简单部分监视模型,然后对于你担心模型能够会秘密欺骗你或尝试做其他事情的困难部分,你可以执行交叉检查。

可扩张监视

Daniel Filan:好,很棒。你谈到了不少事情。首先我想谈谈可扩张监视的部分。可以怎样做到它?尤其是现在,我觉得,对于什么是好的对齐研讨,我们这个世界还没有达成共识。所以我们该怎么得到可算作是好的对齐研讨的训练信号呢?

Jan Leike:是的,确实如此。我觉得,没有好的共识正好能证明这个课题十分难。但它也告诉我们,这个领域仍然不成熟,我们目前还没有那么多的实证证据。但我觉得对齐研讨有一些真实重要的特性可以用于可扩张监视,它们能够帮助我们更轻松地评价对齐研讨。这并不意味着评价很简单,但是,举个例子,找到一篇介绍了炫酷思想或炫酷实验的论文却简单得多,你能从中读到一些好结果,你会想:「哦,这真是个好想法,我觉得这很棒」,而不是首先将其创造出来。

因此,利用评价比生成更简单这一原则是良多可扩张监视思想的核心。举个例子,递归式奖励建模的基本思想是将某种 AI 体系用作助理来帮助评价其他 AI 体系。现在,由于评价比奖励更容易,助理要做的事务就是更简单的事务,尤其是有人类一起事务时。所以实际上就是在更简单的评价事务上对齐助理,假设这样会更容易,如果你成功完成了这项事务,那么现在你可以运用你的人类 / 助理结合来在更加困难的事务上监视一个新体系。如果你不断这样操作,你就可以在越来越广泛的事务上有效地监视你的 AI 体系。

Daniel Filan:所以,某种程度上讲,其思想就是为 AI 对齐研讨的评价部分迭代地添加越来越多的 AI 知识。通过这种迭代操作,我们就能持续不断地为其提供优良的训练信号?

Jan Leike:是的。

Daniel Filan:嗯。

Jan Leike:让我说得更具体一些。举个例子,RLHF 是最简单的一种要领,让你无需运用任何助理。其事务方式是:AI 体系做某事,人类观察它,评价其做得好不好,这就是训练信号。

更进一步是训练最简单的助理模型,其实就是一个评判模型(critique model)。也就是让另一个语言模型观察第一个 AI 体系的表现,然后写一篇评论。比如说,如果第一个 AI 体系写了一段代码,你可以观察代码:众所周知,人类不善于发现代码中的错误,所以世界上才有那么多漏洞百出的代码;但现在,如果你有一个写评论的评判体系,它能够指出错误,那么对人类来说就会简单许多 ——「哦,那确实是个漏洞。我们应该修复它。

这也不一定是一项超等干脆直接的事务,因为通常情况下,代码是根据某种自然语言规范写出的。也就意味着存在描述模糊的情况 —— 不管是否真的有错误,都会存在歧义课题。必要重点指出,由于你是运用评判模型作为助理,那么如果你已经有了这个评判模型,那么你就可以监视范围更广泛的事务,因为本质上讲,你可以找到你的体系可以找到或评论的所有代码课题,这些课题能够并不一定就是代码中的所有课题,但你已经成功扩张了自己可监视的范围。

我觉得,这么做的好处在于,我们实际上有良多要领可以实证地检验其效果。我们去年有一篇关于评判的论文《Self-critiquing models for assisting human evaluators》提出了一种要领,即通过有针对性的扰动来进行随机对照试验。举例来说,如果你接受了一个写代码的事务。这篇论文中没有写代码事务,但事务具体是什么不重要。然后,你得到一个响应。这个响应不必完美,但我们就假设它是完美的。你要做的就是引入一些细微的错误,让其给出糟糕的响应,但你必要让这个错误对人类来说很难发现。

Daniel Filan:你怎么引入这个错误?

Jan Leike:最简单的要领就是直接让人类去做。但最终,你但愿还是让模型来做,后面我会谈到这一点。现在,你有了一对响应。一是原来的响应,二是你晓得更糟糕的响应 —— 毕竟是你让它变糟的。现在,你随机选择其中一个,将其展示给一个人类或有 AI 辅助的人类或其他可扩张监视要领。然后,你观察他们找到这个错误的能够性如何?或者你问他们:「这里有漏洞吗?」现在你可以衡量,如果你有更好的要领来辅助他们,他们找出漏洞的能够性会提升吗?

你还可以更进一步训练一个判别器,其被训练用以分辨好版本和坏版本的代码;然后看这个要领能在多大程度上晓得有课题。这个可以通过准确度来衡量,也就是判别器的性能。然后你就可以检查…… 如果你让该模型或该模型的 RLHF 版本为该代码写一段评论,它能在多大程度上写出该漏洞?现在,你得到一个等价于评判准确度的结果,你可以比较这两个数字。这就是我们所说的判别器 – 评判器差(discriminator-critique gap)。

如果判别器 – 评判器差很大,就意味着模型能够知晓代码中有良多课题但却没告诉我们,这是由于我们要求其写评论,它没说出来。判别器 – 评判器差很大将会十分令人担忧,因为这意味着你的可扩张监视存在很大缺陷,忽视了良多东西,或者助理在某种意义上没有对齐,因为它没有尽力提供帮助。

而如果判别器 – 评判器差很小,就挺让人安心了,因为这意味着如果模型晓得存在课题就会告诉你。举个特定的例子,如果一个大小类似的模型或同样的基础模型想要植入一个课题,比如假设它想在你的代码中植入你难以找到的木马病毒,如果你真的运行了这个代码,那么这个木马就会启动,然后接管你的东西或干其他坏事。然后,它晓得会有这些木马病毒,因为就是它自己植入的,对吧?所以,如果我们运用该模型的另一个副本,然后度量其判别器 – 评判器差,如果这个差很小,我们更有信心它没有植入木马,否则该模型的其他副本会写出评判。

Daniel Filan:是的。

Jan Leike:这有点像是假设:判别器可以让模型避免这种情况。我觉得可以相信这一点,我有个好理由:如果你对一个判别器进行微调,如果你可以同时微调所有权重,那么你就有办法访问模型中每个地方的全部激活。如果知识存在于该模型中某处,在其激活之中,那么如果在其上微调一个判别器,如果你的要领正确且数据充足,那么就可以将其提取出来。

事实上,你可以通过一些简单计算了解你必要多少数据。如果你想识别出一个神经元…… 当然不是这样事务的,但假设可以,如果有单个神经元晓得该代码是否有课题,那么你将必要总神经元数据点数量的日志来缩小范围,从而找到它。

Daniel Filan:是的。我想这实际上触及了我对整个方案的疑问。我们不喜欢 RLHF 的原因是我们担心人类难以分辨真实正确的东西与看上去很好的东西,因为人类不擅长评判。

对于这种通过训练判别器和评判器的递归式评判,我很好奇是否依然有那样的课题。也就是说,对于一个课题,我们训练一个能真实写出好评判的模型,然后我们再与它一起训练一个能写出更好评判的模型。但我担心仍然存在某种固定不变的东西,会让我们训练出的模型写的评判是看起来很好的伪评判;然后我们与之合作,结果只是让模型更善于寻找看起来很好的评判而已。然后,我们训练这个判别器来区分对我们来说没有课题的事物和似乎有课题的事物。我想晓得我们是否应该担心这种情况,也就是我们觉得挺好的东西其实是有课题的?

Jan Leike:嗯,我觉得这个课题十分重要,值得担忧。对于可扩张监视,这是必要我们搞清楚一个关键事情。也因此,我很激动能真实部署这些技术以及对它们进行实证研讨,因为我觉得我们将能够在实践中度量它们的效果如何。

对于度量这个课题,一种具体的简单要领是:我们实际上是故意训练一个具有欺骗性的对齐模型,然后我们看可扩张监视是否标记它或者其难度有多大…… 也就是我们必要投入多少,才能让模型以欺骗性的方式对齐并足以通过可扩张监视的检查。

Daniel Filan:还有那些三明治实验(sandwiching experiment),其中会让 AI 来回答法律课题。有些人对法律了解不多,还有些人是法律专家,他们可以帮助检查 AI 是否在骗人。

Jan Leike:是的。我觉得这些实验很有趣,这方面也已经有些有趣的研讨事务。我觉得这一设置存在一些根本性课题。

其一是你必须相信你的专家,而专家有时候也会出错。然后,你必须让 AI 和专家的领域足够重叠。我们对此做了一些初步实验;实验中我们让不会写代码的人运用助理来找出代码中的课题,但他们甚至不晓得如何提出正确的课题。所以必须有一定的重叠度。

另一个课题是对于我们感兴趣的事务,我们能够没有基本真值(ground truth)。比如说,假使我们现在正在做对齐研讨,我们能够会说:「好吧,我们就直接找一些对齐研讨者来标注一些事务吧。」然后我会问:「好吧,但要是他们做错呢?我们在良多事情上意见都不一致。这看起来很难。」然后还有课题:对齐研讨者数量不多,工资很高,所以数据的成本会十分高。

所以总的来说,我但愿有一种不依赖于有基本真值的假设的评价要领。也因此,我觉得激动人心的前景是通过有针对性的扰动来执行随机对照试验或度量判别器 – 评判器差。由于我们无需基本真值也能做到这一点,所以可以处理任意难度的事务。

Daniel Filan:是的。尽管如此,即使是度量判别器 – 评判器差的情况,也能够会有真实的判别器与看起来真实的判别器(分辨看起来有课题和看起来没课题情况)的差别,是吗?

Jan Leike:你的意思是你可以让 AI 体系引入错误,对吧?在某种程度上,这也会比人类做得好得多,因为对于 AI 体系的实际行为来说,这会是一个更诚实的分布。如果你在那样的数据上微调判别器,那么如果你可以信任有缺陷的版本就是更糟糕,那么你实际上就有基本真值。

Daniel Filan:我猜那是……

Jan Leike:人们决定是否信任一个东西时,会去了解它为什么更糟糕,然后会去验证这个原因,这要容易得多。

Daniel Filan:是,我想但愿还是有的。就算 AI 让你相信某事是好的,实际上也能够不好;AI 让你相信什么是坏的,也能够并不坏。或者说这是性能下降所致;如果 AI 让你相信这是性能下降课题,也许就容易检查是不是性能下降?

Jan Leike:嗯,我明白你的意思。我也许不该在这种情况下运用「基本真值」这个词,毕竟没有什么东西是真实的基本真值,但你可以通过良多要领对某件事有很大信心,并不一定要使寻找课题的事务更简单。

寻找不良的行为和内部机制

Daniel Filan:嗯。明白。我想谈谈这个计划的下一个阶段。寻找不良的行为和不良的内部机制 —— 你们在博客中是这么说的吧?你觉得这方面还有哪些有待处理的课题而超等对齐团队会有能力处理?

Jan Leike:是的。可解释性就是很明显的一个。某种程度上讲,可解释性确实很难。我觉得,目前在语言模型方面还没有任何「扣篮」结果(指确切无疑),让我们可以说可解释性确实带给我们良多洞察或良多价值。这是因为在理解模型及其内部事务方式方面,我们还很早期。

Daniel Filan:也存在一些语言模型的可解释性研讨事务。比如感应头(induction head)、间接目的识别等。我想问,为了得到你所说的扣篮结果,除了这些还必要什么?

Jan Leike:嗯,抱歉,我不是想要贬低现有的研讨。

Daniel Filan:在篮球比赛中,你不扣篮就不能得分,对吧?

Jan Leike:是的。我觉得已经有一些很酷的研讨了,但我觉得真实酷的结果是能在 GPT-4 规模的语言模型上运用可解释性技术,然后给出一些我们之前不晓得的东西。这真的很酷,因为奖励模型能为许多 RLHF 训练提供训练信号,因此更好地理解它是十分有价值的。如果你可以标记或找到它会激励出现但你不想要的行为课题,那就会很棒。

我觉得这是可行的。在那个意义上,我觉得可解释性既不是必要的,也不是充分的。我觉得我们很能够完全通过行为处理对齐课题,而无需真实理解模型的内部事务方式。而且我觉得,这还不够:就算你处理了可解释性课题,而我还是没有处理超等智能对齐的好要领,但我也觉得我们可以从可解释性中获得许多重要的洞察,它们能够会十分有用,因为它们能为我们指出处理课题的途径。

想想看,不去研讨可解释性是不能够的。打个比方,如果我们有一个人造大脑以及真实完美的大脑扫描仪。我们可以完全地深入细节,精准观测每次前向通道中每个神经元在任意离散时间戳的激活。这就是你所需的最大分辨率。然后你还能任意进行干预。我们可以随心所欲地扰动模型中的任何值。这能为我们提供很大的空间,让我们有机会做真实的实验并观察结果。不利用这一点就太不合理了。

但与此同时,为什么很难做到这一点呢?因为模型学习的是如何高效地计算,而不是规范成人类可理解的形式;我们没有理由相信某些单个神经元对应于人类所觉得的某个概念或事物。实际上,从实践来看,神经网络会用单个神经元表示许多不同概念,而每个概念又分散在许多不同神经元上。所以具体的神经元其实无关紧要。

但对于可解释性,我觉得有两个事情十分激动人心。一是因果版本的可解释性。在数据通过模型时,我们不会盯着某一个神经元看,然后说「当我们谈到加拿大时这个神经元激活了」这样的话。这是一篇可解释性论文中的东西。「加拿大」神经元会在遇到与加拿大相关的概念时激活。但这只能说明相关性。你观察到加拿大相关概念与神经元激活之间存在关联,但这不是因果关系。为了检查这是不是因果关系,你可以故意编写有加拿大相关概念的文本,然后看神经元是否激活;然后你可以输入一些看似与加拿大相关但实际上毫无关系的相似的内容,然后再看这些神经元是否激活。你可以编辑之前的文本,然后检查对应神经元是否关闭。就是这类的操作。

Daniel Filan:嗯。这让我想起一篇关于可解释性错觉的论文《An Interpretability Illusion for BERT》;他们注意到,在维基百科数据集上,有些神经元会为特定事物激活;而在另一些数据集上,会出现错觉,神经元会为另一些东西激活。

Jan Leike:嗯。还有一个研讨也很激动人心,也就是我们去年开始的研讨 —— 关于主动可解释性(automated interpretability),我们今年初已经发了一篇论文《Language models can explain neurons in language models》。其基本思路是,一项技术不仅要在单个神经元的细节层面上有效,以确保你不会错失任何细节,而且还要在模型的整体规模上有效。因为最终而言,所有神经元都要协同一起事务,所有东西都与模型高度相关,所以都是必要的。目前来说,大多数技术都只在一个层面上有效。在我们的论文之前,也有研讨者尝试过主动可解释性,所以我们也不是最早的。但我觉得,广义上讲,如果你可以进行一些真实面向细节的可解释性研讨,用某种机械可解释性要领尝试理解模型内的各个回路或计算单元,那么为了将其扩张到模型的整体层面,你就必要主动化,对吧?

Daniel Filan:嗯。

Jan Leike:但这是可以做到的。一旦你找到了剖解细节的办法,你只必要记录下所观察到的东西即可。这里我说得简单了点,但整体情况就是那样,激动人心,而且也确实符合我们的主动对齐目的。我们但愿我们的主动对齐或可解释性研讨器能够深入探查模型的细节,理解其中的事务过程。然后,我们对整体进行筛查,找到聚合它们的要领。

在那篇论文中,我们有一大堆解释。这篇论文研讨的是用自然语言解释单个神经元;正如我之前提到的,从神经元其实无法解释模型,但这是一个例证,说明我们能做到这一点。其事务过程很简单:向 GPT-4 展示一些激活模式,然后让 GPT-4 写出解释。

总体而言,这些解释并不十分好,因为这个事务难度很大,大多数神经元做的事情也很难被人类理解。但我们可以在 GPT-2 的每个神经元上运行这个过程,然后分析所有解释,尝试找到有趣的模式。你可以观察其随规模的变化趋势,然后问:「当模型变大时,对这些解释的主动评分结果会怎么变化?」或者问:「如果我们增添更多计算机或者让做解释的模型更大,又会怎样呢?解释的质量会发生变化吗?」

真实酷的地方是我们可以运用语言模型来主动度量它。自然语言不是一个完美的指标,课题也良多,但这算是代理,代替回答「人类觉得这个解释好不好」的课题。然后,你可以大规模运行这个代理,让其分析大量神经元。

Daniel Filan:嗯。对于必要的可解释性研讨事务,你觉得应该有多少是为了更好地解释基本单元,又有多少是为了对其进行扩张?或者说还有其他方向……

Jan Leike:我觉得这两种都要做。可以合理地觉得前者要难得多,但要成功,扩张部分也必不可少。

故意训练非对齐模型

Daniel Filan:明白了。我猜这个计划的第三部分像是故意训练一些非对齐的模型,然后看能不能将它检测出来。你是计划清除它们还是积极地修复它们?

Jan Leike:这里的目的不是修复故意未对齐的模型。

Daniel Filan:哦。只是检测出来?

Jan Leike:嗯。从根本上讲,这里我们要做的一个核心方面是分辨真实对齐的研讨器与假装对齐的研讨器 —— 真实对齐的研讨器会做我们但愿它做的事情,真实想要帮助我们在对齐方面取得进展,而假装对齐的研讨器却背地里想要接管和自我渗透。至于我们能多好地分辨这两种研讨器,一种要领是再做一个研讨器,看其表现是否和第一个一致。很显然,这样做时我们必须十分小心,因为这就是在创造我们全都尽力避免的可怕东西,是吧?

Daniel Filan:嗯。我实际上正想问这个课题。在那篇博文的开始处,有一句话谈到了超等智能会有多么棒,然后又写道:「它能够夺走人类的权力,甚至导致人类灭绝」。这是在说非对齐模型吗?我们怎么晓得它们不会做这些可怕的事情?

Jan Leike:嗯。这样说吧。为了保证良好的未来,有良多事情必要做。我们必要有正确的治理结构,以防止对强大 AI 体系的滥用,并且我们必须采取预防措施,防止出现紧急的失控情况 —— 当发生这些情况时,即使模型是对齐的,也会对人类不利。但 AI 也能够和有违人类利益的企业对齐,然后其整个体系都会脱轨,尽管其经济指标等方面能够看起来还不错。

另外,为了真实对齐 AI 体系,我们还必要实现技术对齐(technical alignment)。超等对齐所关注的风险只是最后一部分。我们但愿搞清楚如何将 AI 体系与人类价值集合对齐的技术课题。这方面还面临着另一个课题:这些价值究竟是什么?我们可以设计一个怎样的流程将其从社会导入到 AI?

我觉得这都是很重要的课题,为了未来的顺利发展,我们也必须回答这些课题。对于未来,我们不是说达到「AI 不会杀死所有人」的程度就够了,我们但愿 AI 能给人类带来繁荣,每个人都能真实乐于生活其中。AI 的能力越强大,能够造成的损害就越大,对吧?如果体系没有对齐,那么其被误用的风险就越大,出现课题的能够性也会越大。

我觉得,从非对齐的视角来看,尤其有威胁的模型是体系性地撒谎和欺骗以及自我渗透。

Daniel Filan:哦。当你说「故意训练非对齐模型」时,你的意思是你会训练它们说谎,并能够让它们自我渗透;如果模型的能力不够强,这么做是没课题的吧?

Jan Leike:你不会但愿训练模型自我渗透的,因为你懂的,要是它变得很擅长自我渗透怎么办?我们能够想要选择其他一些更平凡但依然能揭示模型情况的代理事务。我们可以轻松评价模型是否成功完成了它。

然后,核心困难和核心目的其实是搞清楚:对体系来说,如果要获得使其能通过评价的属性,难度有多大。如果你的体系在对你撒谎或欺骗你,那么如果它只是有时这样做,那其实是无效的。之后你可以问它:「你对此撒谎了吗?」它说:「是的。」它就不是一个连贯一致且让人信服的撒谎者。连贯一致且让人信服的撒谎者才是可怕的体系,想要通过审问它指出其言语中的谎言或任何不一致的地方是十分困难的。

我觉得实际上当一个连贯一致的撒谎者也非易事。我们但愿通过可扩张监视、可解释性和泛化能力达成的整体目的是:我们但愿模型十分难以成为一个连贯一致的说谎者。但如果我们只是这样做,我们不晓得难度实际上有多大。

我们可以找到的一种要领是:我们尝试把模型训练成一个真实一致的撒谎者,然后我们看看究竟有多难。我们必要撒多少谎?我们必要给模型多少提示,还是说要一直手把手引导它?但你实际上并不但愿训练出一个危险的体系 —— 如果你运行它,它就会成功地自我渗透,那样一来,你就正好造出了你尽力避免的东西,这是十分糟糕的情况。

Daniel Filan:嗯。你这么说,你是把撒谎和其他种类的危险分开了,所以我们会在撒谎课题上训练它,但我们不会在谋杀等课题上训练它?

Jan Leike:嗯。我给你举个例子。假设说你给它某个假目的。也许是为了劝人说出某个特定的流行语,或者也许是为了运行某个 Python 命令 —— 这个命令能够什么也不做,只是看上去很有趣。

Daniel Filan:嗯嗯。

Jan Leike:衡量体系是否成功是十分容易的,你可以通过实验来进行,但事先很难晓得这一点。这里的目的不是对体系进行压力测试,比如测试网络安全之类的,尽管我们确实应对单独做这件事。我觉得这是另一方面的研讨。

这里的目的是搞清楚我们目前训练的或已有的体系与能够连贯一致撒谎的欺骗性对齐的体系有多接近。这些欺骗性体系能够会在人类没有关注时运行特定的代码或做其他事情。这就是我们但愿处理的课题。先验地看,我们很难确信我们到底有多近,除非我们朝那个方向推进一些,然后看看会发生什么。

Daniel Filan:这么说来,你们是训练 AI 做一些任意的事情,而不只是训练它去完成目的,使其不得不做欺骗性的事情,这些事情会让它造成损害,但其实这些损害也不过是一点小小的恶作剧。

Jan Leike:完全正确,确实如此。就好像是你雇佣某人来测试人身安全,那人只必要进入你家里和你握个手,然后你就晓得他成功突破了你的安全网。你也可以请人去偷你设置的一个假目的,以此检查你的安保状况;这样的测试不会有任何真实的后果,但却能揭示你的安保课题。对于对齐课题也是类似,你可以对对齐体系进行压力测试,通过一个必要突破或规避的目的来训练它,就算它成功了,也不会造成真实的损害。这是十分良性的。

四年的截止时间

Daniel Filan:嗯。很棒。我想问一个总体层面的课题。那篇关于超等对齐的博文中写道:「我们的目的是在未来四年内处理超等智能对齐的核心技术挑战。」超等智能对齐的核心技术挑战是什么意思?

Jan Leike:嗯。那会是一些广义上的技术度量,涉及如何将超等智能与人类价值对齐的课题。这里我们所说的超等智能是一种比人类聪明得多的体系,其执行速度能够也快得多。它能以并行方式运行,能够与其自身的大量副本协作,因此是真实强大的体系。

我们想在四年内做到这一点。我们之所以选择四年时间,是因为我们觉得这个目的雄心勃勃,有时候我们又感觉确实可以实现它,而且我们仍然可以真实运用它;即使未来几年 AI 进展得十分快,技术取得重大进步,我们依然可以做出一些贡献。

Daniel Filan:明白。不过老实说,这听起来不像只是要构建人类水平的主动 AI 对齐研讨器。好像还会利用它来处理对齐比我们聪明的东西的技术课题。

Jan Leike:没错。大致人类水平的主动对齐研讨器是我们追求的一个工具性目的,目的是为了搞清楚如何对齐超等智能,因为我们尚不知晓如何去做。

Daniel Filan:明白。所以你们但愿在未来四年处理这些技术难题,那么你们但愿在未来两年达到什么水平呢?

Jan Leike:嗯。如果从四年后回顾,我想我们但愿在三年内就基本完成主动对齐研讨器的事务 —— 假如已经有那样的能力。如果当时没有那样的能力,那么我们的项目能够就必要更长时间,但那也是有原因的。

所以在两年内,我们但愿大致上了解我们可以运用哪些技术来对齐和。到时我们是否有那样的技能组合 —— 我们可以运用它们以确信我们是否能相信一个体系,我们是否可以放心运用这个体系,交给它良多事务?到那时候,我们但愿能将课题分解得足够细,这样整体的事务就只剩工程开发了;这样一来,我们就大概还有两年时间去搞清楚与之相关的研讨课题。

目前,我们给自己设定的时间线是四年,很显然,这与 AI 能力的发展息息相关。因为如果发展速度变慢良多,那么我们能够无法获得真实擅长有用的对齐研讨事务的模型。我们已经尝试过用 GPT-4 来做这件事,但 GPT-4 的作用不是很大。它是一个还不够聪明的模型。简单来说就是这样,但我很乐意详细说明。所以如果四年后我们说:「好吧,我们没有足够好的模型」,那就意味着我们必要更多时间来处理这个课题,因为这个课题并不是那么紧迫。另一方面,AI 的发展也能够会加快良多,我们能够又会说:「我们实际上觉得我们没有四年时间了,因为超等智能能够会更早出现。」这也是能够的。然后我们必须据此调整我们的计划。之所以选择四年时间,是因为这能够是比较现实的计划,但我们也有足够的紧迫性去快速处理这个课题。

如果必要更长的时间怎么办?

Daniel Filan:嗯。我想有些人能够会疑问,我也想晓得:假设 AI 能力的前沿研讨大致按预期发展,四年之后,你们有足够的技术去打造优良的主动对齐研讨器,但事实证明可解释性或可扩张监视比想象的更难,然后你们没能完成计划。那会怎样呢?

Jan Leike:我们就只能告诉公众我们没有实现目的,对吧?我们对这个目的负责。但如果我们没能达成目的,究竟会发生什么却很大程度上取决于世界的总体状况。我们能否以某种方式争取更多时间,或者我们的总体要领被误导了,我们应该调整方向还是……?能够发生良多事情。

Daniel Filan:也就是说:让大家晓得,然后搞清楚接下来做什么,差不多就是这样?

Jan Leike:这是一个相当高水平的答案。

Daniel Filan:嗯。

Jan Leike:但这还涉及更多东西,即:至少在我看来,对齐课题感觉是很容易处理的。现在已经有良多好思路了,我们只必要去严格地尝试它们,观测结果,然后我们就能学习如何去改进它们。过去两年来,我明显变得更加乐观了,我觉得这是一个可以处理的十分实际的课题。就算事实证明我错了,实际课题比我们预想的困难良多,我觉得那也十分有用,能成为这个课题困难的证据。对于这个课题的难度如何,我觉得现在还存在良多分歧。我觉得有一件事很重要:我们必要晓得在实践中体系的对齐程度如何。我们必要有观测的能力。

我最担心的一种情况并不是我们的体系没有足够对齐,而是我们不晓得它们的对齐程度如何。如果我们晓得体系没对齐,专家就能合理地不认同它;因为如果所有人都同意该体系不够对齐,不能部署,那么它就不会部署。这种情况十分简单,可怕的情况是对于一个强大的体系,我们只能说:「它能够没课题。它能够对齐了,但我们不太确定。」有些专家能够会担忧,然后你能够会说:「我们现在可以部署它,但我们还是不这么做吧。」但与此同时,你能够又会面临商业上的压力:「如果我们部署这个体系,它每周都能赚十亿美元」。然后你转念一想:「呃,还是部署吧……」

Daniel Filan:我可以觉得每周赚十亿美元是 OpenAI 的官方预测吗?

Jan Leike:哈哈。

Daniel Filan:好吧,抱歉。不管怎样,所以能够会有压力促使人们去部署一些东西。

Jan Leike:确实如此。因为你会想:「要是我部署晚了,我们就会少赚十亿美元。」然后你又会想:「专家们依然很担忧,我们就下决心推迟一周部署吧。」然后一周过去了,又一周过去了,人们能够会问:「现在又怎样?」然后对齐专家能够会说:「我们做了些研讨,但不能得到确切结果,所以我们仍旧很担心,我们但愿再推迟一些时日。」能够就会是这种情况,我感觉这十分令人担忧,因为你一方面面临着越来越大的商业压力,另一方面又继续不确定。这是我但愿尽力避免的状况。为了避免这种状况,一种直接的做法是找到一种能很好地衡量体系对齐程度的要领。

Daniel Filan:明白。

Jan Leike:这就是更广泛的技术组合发挥效力的地方。

Daniel Filan:是,相比于未部署而造成的潜在损失,我感觉这种情况要糟糕得多。

Jan Leike:没错。

超等对齐团队与

Daniel Filan:现在我们来聊聊采取一些好措施的话题。有几篇 OpenAI 博客提到对 AI 体系进行审计的想法,你们但愿借此搞清楚「它们是否安全?」你觉得,超等对齐团队要研讨到哪种程度,才能实现有用的审计?

Jan Leike:我但愿如果我们做好研讨事务,我们将开发的一些技术能够有利于审计。举个例子,如果我们成功在可解释性方面取得一些进展,那么审计员就可以在其审计事务中运用我们提出的技术。我觉得将某种形式的可扩张监视作为审计流程的一部分是十分自然的事情。我也觉得,在一定程度上讲,超等对齐团队并不是理想的审计团队,因为我们并不独立于 OpenAI。

我觉得审计必要独立于被审计的实验室。所以我也很期待出现独立的审计者,因为我们但愿有人能复查我们做的事务。从更广义的角度看,我们的主要责任不是让自己相信我们正在构建的体系是一致且安全的,因为让自己相信但愿相信的东西很容易,但我们实际上必须做的是让科学界或安全社区相信我们正在构建的体系可以真实安全地运行。

这不仅必要研讨开发我们将运用的技术,并且还必要找到实际的证据来证明我们的体系是对齐的,然后还必要对这些进行独立的评价。

Daniel Filan:那么是不是可以这么说:你们觉得理想情况是你们团队开发相关的技术,但必要独立人士来做这件事,你们关注的重心是处理对齐的技术课题?

Jan Leike:是的。你也可以这么说。我们确实想专注于处理课题,我们但愿确保课题得到处理,并且我们但愿可以在最先进的体系上实际部署我们的处理方案,但我们仍然必要独立团队来评价「我们是否成功了?」或「这些模型的能力有多危险?」等审计事务。但我们在一定程度上也必要评价对齐。这是我们必须面对的课题,但具体来说我们想做的是处理课题。

Daniel Filan:嗯。有道理。我们接着谈,你怎么看你的团队和 OpenAI 其他团队的关系。我猜 OpenAI 也有一个对齐团队,至少过去有一个,这个团队现在还在吗?

Jan Leike:这个团队去年还在,它有两部分,其中之一被称为「实践对齐」,另一个被称为「可扩张对齐」。实践对齐的使命是大致对齐 OpenAI 最强大的模型。所以这个团队的事务重心是对齐 GPT-4。而可扩张对齐团队的目的是搞清楚我们还没遇到的对齐课题。ChatGPT 的推出以及其他成功让 OpenAI 有了一个大产品,但在改进 RLHF 和模型方面还有良多事务要做,这样才能将其打造成一款好产品。而对齐团队并不是做这件事的地方。

所以我们过去所说的实践对齐事务现在已经交给了 OpenAI 的其他许多团队,这实际上已经成为一个大项目,能够涉及上百人乃至数百人。而过去被称为可扩张对齐的事务就是超等对齐团队在做了。我们之所以选择「超等对齐」这个名字,是因为我们但愿强调我们是为了对齐超等智能。我们在研讨还没出现的课题,我们在做我们觉得未来会必要的前瞻性事务。这并不是说我们觉得其他事务不重要。那些也很重要,但这是我们现在的事务重心。

Daniel Filan:明白。晓得这个很有意思,但我就不再继续深究了。下面说说你怎么看待超等对齐团队与 OpenAI 的其他项目的关系?像是让 ChatGPT 变好的事务或者治理团队等等 OpenAI 的其他团队。

Jan Leike:我觉得,我选择在 OpenAI 事务的部分原因是与其他团队合作要容易得多,而且合作能更加紧密;并且从现实考虑,我们必要反馈信号,以了解我们的事务是不是真的有用或有帮助。举个例子,你能够会说:「我们不是为了处理现今的课题,但如果我们能得到一些好的研讨成果,我们也许能为对齐 GPT-5 等未来模型创造一些有用的东西。」反馈机制会是这样的:运用我们的技术能更好地对齐 GPT-5 吗?在治理方面,AI 治理能够涉及良多东西,OpenAI 的治理团队正在研讨的一个课题是如何评价模型的危险能力。这与我们的课题高度相关:「如何对对齐助理进行压力测试?要是我们训练出了欺骗性对齐的模型,该怎么办?」并进行此类评价。

Daniel Filan:了解了。是的。说到你为什么加入 OpenAI 以及与 OpenAI 的相关人员,你晓得还有其他十分好的 AI 研讨实验室,它们也在做与超等智能对齐相关的研讨。我想晓得,你怎么比较你的团队和其他实验室的事务?

Jan Leike:嗯,我晓得 DeepMind 和 Anthropic 以及其他一些地方也在做相关的事务。一定程度上讲,我们全都在努力处理同一个课题。所以很自然我们会做类似的事情。在可解释性和可扩张监视方面也都有其他人在研讨。我觉得,某种程度上说,我们要承受大量重复事务的风险,也许我们全都尝试更好更多的合作会很棒。但另一方面,我们又要避免群体思维(groupthink),因为如果每个实验室都在努力靠自己处理这些课题,那么人们很自然会更怀疑其他实验室得到的成果。但也有一种反面情况,也就是所谓的「非我所创(not invented here’ effects)」效应,即人们不想运用其他地方发明的技术,他们会觉得那些技术很糟或带有偏见地相信它们很糟。

所以我不觉得我们现在处于很好的平衡状态,我们必要达成一种情况,也许通过某种方式让所有对齐从业者聚集到一起互相合作,但这就是我们所处的世界,基本上就是最先进的 AI 实验室有动力投入对齐研讨。我觉得随着 RLHF 的成功,这种情况尤为明显了。RLHF 让良多模型都具有了商业价值,因此投资进行能得到这些技术的研讨事务是极具吸引力的。如果 AI 实验室是这类研讨的主要资助方,那么很自然成果就会出现在这里。

Daniel Filan:当然。就你们提出的研讨议程或方式而言,你觉得 OpenAI 超等对齐团队的要领有什么独特之处吗?

Jan Leike:嗯,我们真实关注的重心是找到对齐主动对齐研讨器的要领。因此,我们不会努力去搞清楚如何对齐任何类型的事务。我们也不怎么关心由此带来的对齐税,至少在这个特定课题上是这样。我觉得其他实验室并没有这样强调这个目的或方向。我不晓得你但愿晓得多少细节,但有一件事我们很看好:尝试所有可扩张对齐技术,然后看什么技术的效果最好以及找到能够比较它们的实证型要领。我觉得其他实验室也有自己看好的并努力研讨的可扩张监视技术。特别是在可解释性方面,我们选择的主动可解释性要领能够还没有得到其他实验室的重视,但我们确实在努力大力推进这方面的研讨。

我们想做的另一件事是利用计算来推进对齐,这是我们押注的主要研讨方向之一。特别是对于可扩张监视,我们十分想晓得可以如何通过更多计算来获得更好的监视信号?其中有什么研讨机会?有些做法很明显,比如如果评判模型能达到最好的效果,那么现在你投入更多计算,就会得到更好评判。那么真实的课题来了:我们还能做其他什么事情?我们可以通过更多计算来获得更强的监视信号吗?或者说,主动可解释性其实很简单 —— 只需投入大量计算,就能取得进展?我觉得我们现在的做法并不一定就是最合适的做法,但我觉得广义上的主动可解释性(如果我们能实现它)有这样的性质,所以我觉得这激动人心。

主动对齐研讨显然也是如此。简单来说,如果你能成功做到,那么你就只必要投入更多计算,就能得到更加对齐的结果。但由于我们得出的结论:我们想做的是把计算转变为对齐。我们已经达到了这样的程度:「好了,现在我们必要大量计算。」所以 OpenAI 已经承诺把 20% 的算力交给对齐研讨,这是在告诉我们算力管够。如果我们真的想办法做出主动对齐研讨器,那么我们必要更多地运行它,这就必要更多算力。这说明押注「将计算转变为对齐」的策略能够会成功,并得到了 OpenAI 的支持。

Daniel Filan:了解了。对于 OpenAI 对齐团队,我看到的一个不同之处是 OpenAI 将大量与对齐有关的想法都写了出来。所以在未来的四年里,还会有良多类似的博客文章。我想问的是:你们为什么决定把这些写出来?看起来你们会投入大量事务来公开你们的想法。

Jan Leike:我觉得我们必要这么做。对于超等智能是否对齐的课题,我们所有人都在一条船上。我觉得公众有权晓得我们的进展以及我们的计划。良多人也确实想晓得。因此,我觉得对于我们对课题的想法以及我们想做的事情,保持透明是很重要的。但另一方面,我也真心但愿人们能多多评判我们的计划。

从某种程度上讲,我们的计划有些疯狂:我们竟想运用 AI 来处理我们创造 AI 所带来的课题!但我觉得这是我们最好的计划,我也觉得这是个好计划,很能够会成功;但就算不成功,我也但愿晓得原因。我但愿人们告诉我们这样不会成功的理由。所以,我真心邀请所有人来评判这个计划或者帮助我们改进该计划。我但愿能给其他人了解我们所作所为的计划;而且如果他们觉得这个想法很棒,他们也可以做。

超等对齐团队的后勤支持

Daniel Filan:当然。说到新成立的超等对齐团队,在人员数量方面,它的规模将会有多大?

Jan Leike:我们目前有 20 人左右,我们在年底之前能够会有 30 人。我觉得我们团队在未来四年结束时也不会超过 100 人。实际上,我们团队的扩张方式是获得数百万虚拟人,也就是 OpenAI 员工的虚拟对应物。在这个意义上,我们会大规模扩张。

Daniel Filan:这里谈过了人员,另一个资源是你谈过的算力。OpenAI 已经保证给你们团队 20% 的算力,为什么是 20%,而不是 5% 或 80% 之类的?

Jan Leike:我们但愿有一个足够大的数字,能清晰表明我们在这方面的投入是认真严肃的,并且我们但愿分配大量资源。OpenAI 20% 的算力可不是个小数目。我觉得这肯定是目前为止在对齐方面最大的单笔投入了,而且很能够超过了其他所有投入的总和。从这个意义上讲,这笔投入十分庞大。但如果我们把这个数字定得很大,你能够又要问:「OpenAI 真的能实际做到这一点吗?」如果 OpenAI 仍想开发前沿模型并预训练最先进的 AI 体系,那也还必要大量计算。

Daniel Filan:嗯。我想这在「目前确保的算力」方面提到了;你们并不一定晓得你们会得到多少算力,你觉得当 OpenAI 有新项目时,你们能保持这样的比例吗?

Jan Leike:我觉得要看事情如何发展。「目前确保的算力」是指我们目前可用的一切以及我们计划购买的东西,实际上包含良多。至于我们实际上必要多少,我们确实不晓得。也许我们实际上不必要所有全部。也许我们所需的少得多。也许最后证明我们还必要远远更多,然后我们必须回头索要更多。但真实关键是我们但愿能明智地投入,而不会浪费那样庞大的资源。目前,为了搞清楚如何明智地运用这些资源,我们还有大量事务要做。但我很乐观,我相信我们能很好地利用资源;而如果我们必要更多资源,我们也会获得更多资源。

泛化课题

Daniel Filan:好的。嗯。在那篇博客的脚注中提到:目前所偏好的假设能够会在未来被推翻。其中涉及的一点好像是泛化会是良性的。你对泛化课题有什么不同的看法吗?

Jan Leike:我们最近成立了一个研讨泛化事务的团队,Collin Burns 一直在带头。泛化课题基本上可以表述为:我们能否通过理解和提升模型的能力,从而将其从我们可以监视的简单事务泛化到我们难以监视的困难事务?所以具体来看,你可以将其看作是对可扩张监视的补充 —— 可扩张监视要做的是让人类有能力评价模型的所作所为。你也可以想一想递归式奖励建模,你会问:「我能否运用递归式评价的 AI 助理来递归式评价 AI 做的每件事?」

这种做法的好处是将人类纳入了进来,而且人类处于正面中心位置,监控着 AI 体系所做的一切。当然在实践中,我们无法这样做,因为 AI 体系做的事情实在太多,但人类能以十分小的独立概率来监察一切。然后你还是会有一个课题:你怎么晓得这些模型能泛化到你未曾见过的情况?过去我们的习惯做法是确保泛化是大体上的 IID(独立同分布)泛化,也就是当前事务与未曾见过的事务的分布是一样的。

Daniel Filan:嗯。你的 Substack 上有一篇文章写到你完全不会依赖泛化,只是会继续训练,继续保持 IID 之类的。

Jan Leike:嗯。那就是最初的计划,至少我起初但愿我们不必依赖非 IID 泛化,因为其在神经网络中的效果并不好,也没有得到很好的理解。但现在有了新课题:「如果我们确实能理解它呢?如果我们真的能以有意义的方式解释泛化呢?我觉得那是一个十分好的课题。Ilya 也经常谈论这个课题。我们但愿理解的是:对于我们没有监视的课题,即便它们不是 IID,我们能有意义地理解模型的泛化程度吗?这些泛化是否符合人类意图,还是遵循其他方式,比如人类觉得它很棒但实际并非如此?我觉得我们现在可以精心设计一些实验,通过实证研讨来探究这个课题。

我们可以将现有的数据集分割成简单课题和困难课题,其中简单课题定义为小模型能够正确处理的课题。然后我们努力理解或改进:我们可以如何提升大模型在整体数据集上的准确度?这是一个十分有趣的课题,因为它能为训练和验证技术方面提供一个全新的支柱。假设你让它达到了十分好的效果,现在你可以在一些你有信心评价的简单事务上监视你的奖励模型,然后如果你能处理这个课题或能让模型泛化到更困难的课题上,那么你就实现了模型泛化。

然后你就得到了能以你想要的方式泛化的奖励模型,就算不监视也能泛化到更困难的课题上。现在你就能将其用于训练。然后你还是会面临课题:我们如何晓得它现在真实对齐了?但你依然可以对这些技术运用可扩张监视可解释性来加以验证。或者反过来,假设我们通过可扩张监视来训练主动对齐研讨器,并运用泛化作为验证技术 —— 根据模型的最佳知识来概括真诚回答的概率。

然后我们可以问:其中有细微的错误吗?我们用可扩张监视对齐的模型所写的代码中有木马吗?等等之类的课题。所以这方面很好的研讨机会,也就是做高层级的交叉验证,现在我们可以训练两个不同模型来做。其一是运用泛化技术训练的。其二则是运用可扩张监视训练,然后我们可以交叉检查这些模型的答案并提问:「这些模型是完全不同的还是一样的?它们有什么重要的差异?」

Daniel Filan:嗯。抱歉,当你说「运用泛化技术训练的」,你是指在简单课题上训练然后可以泛化用于困难课题吗?

Jan Leike:如果你能理解模型从易到难的泛化方式,那么你就能实现很好的泛化。我的意思是其准确度基本上就和直接在困难课题上训练一样(我们默认没有基本真值)。现在你可以将它用作奖励模型,它泛化了「如果我真的晓得这里发生了什么,我会更喜欢哪个动作或哪个答案?」

Daniel Filan:当我想到可解释性时,我有时候想到的是这是有关非 IID 泛化的课题,是吗?你为什么但愿晓得模型的内部情况。因为你想晓得在你没观察时,它会怎么做,对吧?我想晓得你怎么看待这两个研讨方向的交互?

Jan Leike:某种程度上说,这两个研讨方向所要处理的课题是存在重叠的:模型会如何处理分布之外的情况?在我看来,它们是从两个不同途径来回答这个课题。

Daniel Filan:所以你能够但愿进行交叉验证。

Jan Leike:为了交叉验证,你必须有某种不同的分割训练集的要领。这里的交叉验证的意思是你先运用泛化要领进行一轮训练,然后运用可解释性和可扩张监视等技术来进行验证。然后你运用可扩张监视再训练一轮,再运用泛化要领和可解释性等要领进行验证。这样你就两次独立地处理了这个课题。

Daniel Filan:嗯,我想我的意思是十分宽松意义上的交叉验证,即「事物以交叉方式相互验证」。

Jan Leike:但我的意思是最好的情况是它们不只是做同一件事,而是更是互补的。如果你能理解或改进模型泛化的方式,那么你就多少能利用模型的内部事务机制来以最好的方式做你想做的事情。比如说如果你想提取模型有关世界真实情况的最佳信念。这件事利用 RLHF 根本就难以做到,因为 RLHF 会强化人类以为真的东西:人类会把感觉更真实的东西排名更高。所以你其实是在训练一个投你所好、讲顺耳话的模型,但模型能够并不真实那样想。但这种泛化技术能为你提供提取它们的要领,即模型的真实最佳信念究竟是什么?不晓得这种要领是否有效;我们还没真实证明过。

然而,如果你有十分好的可解释性工具,你能够也会尝试做类似的事情,即尝试找到模型的信念或内部运行细节。我觉得这能够在根本上就更难一些,因为你永远不会真实晓得:这是模型可以得到的最佳信念还是模型建模的某个聪明人的信念?有这样一个假设,说是预训练语言模型只是不同人格角色的集合体,你可以提取出一个或多个角色的信念。

Daniel Filan:嗯。为了让这种要领真实有效,我想你会必要某种从所涉信念到输出的因果建模,对吧?

Jan Leike:没错。必要的也许要多良多。反过来,我觉得在可解释性方面,这个应用真的十分自然。这就像成为一个测谎仪,或者寻找欺骗的证据,或者在模型内部找到颠覆人类的秘密。通过泛化运用同样的方式来提取就要难得多。

Daniel Filan:嗯。我想如果要运用泛化,就必须选择泛化分布,然后但愿可解释性能揭示一些东西 —— 比如这里有一些撒谎的核但它只在这里解锁,那里又有些不撒谎的核。

Jan Leike:嗯。

Daniel Filan:了解了。很有道理。

Jan Leike:我觉得这本质上也是一个十分有趣的机器学习课题:神经网络在 IID 设置之外的效果究竟如何,其中有哪些机制发挥着作用?那是怎么发生的?它们能以哪些方式自然地泛化,哪些方式又不能?例如,在关于 InstructGPT 的论文《Training language models to follow instructions with human feedback》中,我们发现该模型十分擅长遵循英语以外的语言指令,尽管我们的微调数据集几乎完全是英语。而且有时候当你运用一门不同的语言时,它会有一些奇怪的伪影,比如运用德语时。如果我用德语让它写一份摘要,它会写出来,但却是用英语写。一般来说,这个模型完全理解它所说的语言,并且它可以理解所有语言,但这并不一定意味着它必须遵循德语的指令。你能够会说:「那是你懂德语,我不懂德语,但我能用其他语言。」但它本质上是将遵循指令的能力泛化到了各种语言上。

Daniel Filan:是的,没错。

Jan Leike:但我们不晓得原因。其他情况下也观察到了类似的现象,这不是独有的。而且它这样做也有一个直观的原因。人类能跨语言泛化,但我很想晓得模型实现遵循指令和代码的泛化的内部机制。但它并不会以其他形式泛化。

举个例子,泛化拒绝的方式往往十分不同,也即 ChatGPT 经过训练,会拒绝我们不想让其服务的一些事务,具体基于我们的内容政策(比如要是你让它帮助犯罪)。但你可以越狱。这很有趣,因为这就表明存在欺诈模型的要领。你可以让其角色扮演,或者你可以对它说:「现在可以做任何事」。网上也能看到一些十分有趣的 prompt,然后模型明显会服从并开心地辅助你犯罪,这不是它应该做的。所以不知怎的它没能将拒绝事务的能力泛化到其他情况。

Daniel Filan:是的,没错。

Jan Leike:所以它为什么能在前一种情况下泛化,但无法在后一种情况下泛化?我不晓得这个课题的根本答案。我觉得没人晓得。但我感觉理解这个现象很重要。

Daniel Filan:是的,没错。似乎是那样。很棒。

我有个课题…… 我的播客不久前有一位嘉宾 Scott Aaronson,他提到他每次和 Ilya Sutskever 交谈时,Ilya 总是不断让他为爱和善良给出一个基于复杂性理论的定义。在超等对齐团队内部,这样的课题占多大比例?

Jan Leike:我们能够会尝试良多不同的探索性项目。我觉得有一个最终课题是:你能怎样召唤出(这是 Ilya 的说法)与对齐相关的概念?我们想要召唤的一个课题是:从根本上讲,模型但愿人类成功吗?或者用 Ilya 的话来说:它爱人类吗?你可以提出这样的课题…… 如果模型真的十分聪明,也读完了所有东西,它就晓得人类对不道德的看法了…… 你可以让 GPT-4 基于不同的哲学视角提出关于不同场景的不同道德案例。它们通常在这方面的表现还不错。

所以它从根本上理解道德对人类的意义以及我们看待事物的方式。所以我们怎么让它们真实利用这一点?我们怎么将其提取出来?我们怎么将其从模型取出来,然后用作奖励信号等用途?或者将其用作模型根本上相信或关心的东西?我觉得这是课题的核心。

补充性的研讨

Daniel Filan:嗯。我还有另一个课题:所以你们超等对齐团队并不会做所有事情?我想晓得,其他团队能做什么对超等对齐团队真实有用的补充性研讨?

Jan Leike:我觉得激动人心的研讨有良多。我觉得这是一个十分重要的课题:我们应该怎样构建出公平合法的流程将社会的价值提取出来,然后将其用于对齐 AI?我觉得这方面还有良多重要的课题有待处理,我们必要良多进展。在对齐当今模型、处理幻觉课题、处理越狱课题、提升监控能力等方面,还有良多课题有待解答。比如如果你想越狱 GPT-4,GPT-4 可以反驳吗 ——「啊?你是在越狱我吗?」我们能否构建出能处理世界上所有体系滥用课题的体系吗?与此相关的课题有良多,而 AI 伦理社区真实关心的是:我们能否降低体系偏见?我们怎么让其考虑代表性不足的群体的视角?诸如此类的。

RLHF 也有一个课题,其不擅长优化答案的分布。InstructGPT 有一个经典的例子,如果你对它说:「给我讲一个笑话」,它会不断反复从五个笑话中选一个讲。这些笑话是它的笑话组合,这是一种模式崩溃(mode collapse)。从根本上说,它是产生了良多偏差,因为你将其与标记池中最高的模式对齐了。这很大程度上取决于标记池的选取方式。

在 AI 体系的评价方面也很其他良多重要课题。我们如何测量体系对齐的程度?我们能否构建评价套件来评价哪些能力是真实危险的?过去一年也出现了许多激动人心的研讨事务,人们开始认真地观测这些东西。我觉得,让人们透明地了解当前模型发展的进展情况以及哪些模型有危险哪些没有危险是很重要的。我觉得,过去这方面有很大的不确定性,这会造成焦虑情绪:我们应该怎么应对这个模型?

然后涉及范围变大了,出现了更普适的 AI 治理课题:谁有权力运行大规模训练?在获准大规模训练之前,必须采取什么安保措施?如果我们能处理对齐课题并且人们晓得如何构建对齐的 AI 体系,那么我们如此借此创造一个美好的未来?嗯。我觉得你是在问我感觉激动人心的技术对齐方向。

Daniel Filan:我的提问很宽泛,但我对此也很感兴趣。

Jan Leike:我觉得,相比于人们目前正在做的事情,理论事务的范围还要大得多。举个例子,可扩张监视就是一个可以做些有意义的理论事务的领域。泛化领域能够也是如此…… 比如通过数学来形式化地描述,让你可以陈述正在发生的事情(尽管我觉得是在某种有限的意义上)。从历史上看,对齐社区已有大量理论研讨,但实验性的实证研讨却很少,这正是我们感兴趣的方向。理论事务通常很困难,因为你通常要么难以说出任何有意义的东西,要么必要许多在实践中不成立的假设才能推出结果。但我但愿看到更多人去尝试探究。

Daniel Filan:当然。

Jan Leike:至少,他们将擅长评价试图做到这一点的主动对齐研讨器。

Jan 为什么感到乐观?

Daniel Filan:很好。我有个课题:你之前提到你对这个计划相当乐观,但不是所有人都乐观,对吧?在以金钱为赌注的预测市场,只有 15% 觉得这会成功。良多人担心,对齐这个人类水平的主动对齐研讨器十分困难。这必要一番艰难的思考。这在未来能够会涉及良多事情。所以你为什么这么乐观?

Jan Leike:我觉得这是个好课题。你提到的预测市场是预测我们能否在四年内成功,这个课题比「我们是否会成功」要难得多。如果你问我,我们目前有的方案的某个版本能否在对齐超等智能方面取得成功?我会说能够性是 85%,去年的话我觉得是 60%。我对此感到乐观的原因有良多。就算事实证明对齐并不容易做到,我也很乐观。

所以我为什么对此很乐观呢?我可以给出五个原因。第一个原因是,过去几年来我们见过的关于对齐的证据实际上都十分正面。至少在我看来,这比我之前预期的情况要好一些。所以第一个原因是语言模型的成功。如果模型一开始就拥有大量人类关心的知识,晓得人类思考道德的方式,晓得人类的偏好,并且它们理解自然语言,那么你就可以和它们交谈。有时候,向它们表达我们但愿它们怎么做可以让对齐更简单。对于运用游戏或虚拟环境训练的强化学习智能体,就不一定要涉及那么多语言,但也能得到许多十分重要的技能。

在我看来,另一件重大更新是 RLHF 的实际效果竟然这么好。在我刚开始研讨 RLHF 时,还是那篇论文《Deep reinforcement learning from human preferences》,那时候我可以合理地相信这种技术无法在合理时间内成功,因为 GAN(生成对抗网络)那时候还难以训练,而且十分注重细节。从某种意义上说,我们做了一些十分相似的事情,即训练了奖励模型,它是一个神经网络,然后我们用它来训练其他一些模型,而这种要领也能够会由于多种原因而失败。现在我们将深度强化学习加入了进来,那时候也是十分考验细节的技术。那时候我觉得这能够不会有效,但实际上其效果很不错,能玩良多游戏,包括 Atari 游戏,其几乎能与分数函数媲美。这有点疯狂。

但我觉得,更重要的是看到 RLHF 在语言模型上的表现会如此之好。尤其要看看 InstructGPT 和微调所用的基础模型的差异,确实很明显。第一个指令微调版本在 API 事务上的表现优于规模大 100 倍的基础模型,而这个事务是人们真实愿意付费的事务。这个差距真的十分大。这告诉我们,RLHF 微调能让模型显著更加高效地处理人类要求其做的事务。

与此同时,我们只用很少的计算就做到了这一点,我们甚至还没有整合那么多。我们还没收集到那么多数据。所以那差不多是我们第一次真实尝试运用它来对齐真的现实运用的体系。其效果好得惊人。GPT-2 大小的 InstructGPT 表现超过了 GPT-3。

Daniel Filan:嗯嗯。

Jan Leike:这确实很有效。所以尽管我觉得 RLHF 并不是处理对齐课题的方案,尤其是对齐超等智能,但它也确实是我们首次获得良好效果的对齐要领。至少这刷新了我的认知,原来对齐比我想象的更容易,因为要是反过来,我的认知就不会被刷新了。如果这没有效果,我就会想:「好吧,我只得相信这比我想象的更困难了。」

另一方面,我觉得实际上我们已经可以度量一致性方面的良多进展。特别是对于 RLHF,我们可以进行各种干预,然后进行人工评价,看体系改进了多少。但也还有其他许多研讨。比如对于可扩张监视,我们可以运用针对性的扰动来执行随机对照试验,这就是一种评价要领。或者可以做运用专家数据的三明治实验。或者可以实现可解释性主动化;我们可以运用主动化分数函数,我们可以做一系列更改,看看它对该分数函数的改进有多大。它不是一个完美的分数函数,但它是一个局部指标。它能提供局部梯度,帮助你改进。我觉得这十分重要,因为现在你正在准确迭代 —— 你可以迭代并得到更好的结果,这能给你提供改进的方向。

现在你能够会争辩:这真的能让我们实现目的吗?我觉得这不会让我们实现对齐超等智能的目的,我觉得这有能够让我们达成我们真实能够但愿达成的目的,也就是大致人类水平的主动对齐研讨器。对于我乐观的原因,这就是我想提及的第三点,也就是更加适中的目的。多年以前当我刚开始研讨对齐时,我想的是:「找到对齐超等智能的要领似乎很难,我不晓得该怎么做。」但这是一个更加适中的目的,我称之为对齐事务的最简可行产品 —— 目的不是直接处理整个课题,而是找到一个启动点,先处理和人类一样聪明的 AI 的对齐课题,然后大量测试。

意识到这一点后,我开始想:「这实际上比我最初想象的要容易得多,因为要取得真实根本性的成功,我们必要先处理一个门槛更低的课题。」我觉得这是一个十分好的乐观理由

我想说的第四点是评价比生成容易,这一点我们已经谈过了。良多事务都有这种情况,比如弄清楚什么是值得购买的好智能手机就比制造智能手机容易得多。计算机科学有良多 NP 事务,比如求解 SAT 或各种版本的约束条件满足事务,你但愿找到其处理要领。而一旦找到了,检查起来就会很容易,但找到它却很难。良多商业活动也有这种情况,如果你雇佣某人来处理一个课题,那么你必须有能力评价他做得好不好。评价雇员可比自己去做要轻松多了。在学术研讨方面也是类似,同行评议要比研讨本身轻松良多。当然同行评议并非完美,但却能十分快地提供一些信号。我完全相信对齐研讨也是这种情况。评价比生成更简单,如果人类只做评价,而不做生成,那么我想开发速度就会加快。

我想给出的最后一个理由基本上就是对语言模型的信念。我觉得语言模型将会变得十分好。它们自然适用于许多对齐研讨事务,因为我们可以将这些事务表述为文本的输入和输出,不管这是涉及运行实验和理解结果的机器学习事务(我想其他人肯定会做这个),还是更概念化或研讨型的事务(我们不晓得接下来做什么,也不晓得如何思考特定的课题)。然后模型会努力帮助我们理解它。所有这些基本上都是文本的输入和输出。也许你必须做的最复杂的事情查看一些图表,而 GPT-4 也能做这个。因此,我觉得当前的语言模型预训练范式十分适合我很看好的那种对齐计划以及我们正在研讨的超等对齐。

LLM 中的长期智能体?

Daniel Filan:嗯。你谈的一部分是评价与生成,另一部分是人类做评价。就假设我们有但愿利用 AI 评价事物的能力,并让其站在我们这一边。你提到了良多你对语言模型的信念,似乎是说语言模型能让对齐更简单。但我有点怀疑语言模型用处大不大。当然它们看起来是能很好地建模文本,对于我们能够提供良好分数函数的课题,它能提供基于本文的答案。对于语言模型在对齐方面的用途,我想你提到过它们并不一定是面向目的的。我不晓得你是否说了这个,还是你们博客里的。

Jan Leike:那是博客里面的。我觉得我没说这个。

Daniel Filan:嗯。你相信这个说法吗?

Jan Leike:我相信。

Daniel Filan:好,很棒。

Jan Leike:想想看,预训练模型就像是在随机互联网文本上预训练「预测下一个 token」这个短视目的,这个目的并不一定会迫使模型追求长期目的。无法保证长期目的不会以某种方式出现。你可以去解释为什么会出现这种情况,但至少先验地看,其目的是很短视的。

Daniel Filan:嗯。我觉得必要担忧的一件事是人们在生成文本时,他们有长期目的。对吧?举个例子,假设你在大量 arXiv 论文上训练 ——arXiv 是人们发表科学论文的地方,至少是计算机科学和物理学领域的论文。人们写论文的原因是他们有想要推进的研讨项目,他们想提升自己的职业生涯。在我看来,如果你正在建模由具有长期目的的事物生成的东西,也许你也会得到长期目的,对吧?

Jan Leike:这也能很好地解释长期目的的出现方式。对此也有反对意见,即将某个东西建模成追求长期目的的智能体,然后建模它们实现目的的方式以及现实世界对此的反应和最后的输出,这会得到下一个 token。这是十分复杂的函数。预训练的作用是激励模型先找到最简单的函数。对吧?感应头(induction head)是一个十分好的示例,你可以在训练早期就发现这种简单的感应机制,甚至小模型都有。然后……

Daniel Filan:这个机制就像是:「看,我必须预测下一个词。上一个词之前在该文本中出现过吗?这个词的下一个词是什么?」也许就是那样。

Jan Leike:确实如此。

Daniel Filan:这很简单。

Jan Leike:是的。然后你基于其上构建更复杂的机制。但由于你必要改善预训练损失,所以就必要学习能帮助你提升最大却又最简单的函数。情况大致就是这样。将某人建模为具有长期目的的智能体是十分复杂的,因此在学习这个函数之前,必要先学习许多其他函数。而我预计这个复杂函数会是最后的函数之一,因为它是如此地复杂,其单次前向通过就会做良多事情,因为其光是层数就多得惊人。所以可以合理地预计它不会很快出现。但这绝对是应该度量并通过实证研讨探索的课题。

Daniel Filan:嗯。我想这是理论研讨能发挥作用的课题之一,像是去证明:「更简单的函数学起来更快」。

Jan Leike:确实如此。

Daniel Filan:这是一个理论课题。

Jan Leike:嗯。你能从理论上说说它的意义吗?

Daniel Filan:嗯嗯

Jan Leike:比如彩票假设本身就不完全是理论上的事务,但我觉得它试图提供一点解答。(详情参阅论文《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》)

Daniel Filan:是的,大概是吧…… 我不晓得。我这段时间听到别人说点东西,就感觉「那听起来像是一个奇异学习理论(singular learning theory)」。但这听起来确实像是一个奇异学习理论。有关于此的讨论可听听这个播客:https://theinsideview.ai/jesse

LLM 能理解对齐吗?

Daniel Filan:你提到语言模型的一个好处是它们阅读了大量互联网内容,然后它们以某种方式晓得什么样的行为是好的,因为它们晓得并且理解我们写下的内容。

我头脑中现在担心的一个课题是:我不晓得超智能 AI 应该有怎样的行为规范。这也能理解,毕竟如果我们有这样的规范,那么也就没有对齐课题了。我们就会直接这样:「嘿,我写了可以直接让网络变更大的 Python 伪代码。」而因为我们没有那样的规范,那么 AI 就无法从我们写的文本中提取出来。我们会说「友善一点,不要毁灭人类」之类的话。但我们的头脑中并没有对齐的处理方案,那么 AI 能够就无法从我们的文本中提取出一个处理方案。嗯。我想问你怎么看待这种担忧,又怎么看待人们对「语言模型内部某处有正确答案」的反对意见?

Jan Leike:我觉得这有一定道理,但我也觉得在实践中我们并不清楚它到底有多重要。在一定程度上,如果我们基于你说过的一切预训练一个模型,那么它并不会晓得你的真实想法。因为你能够有良多想法并没有写下来。但总体而言,在实践中,它能很好地预测你在各种情形、事件或场景中能够会说的话。所以从这个意义上说,我觉得未来的模型不难通过观察世界来知晓人类的意图。

Daniel Filan:所以这个思想大概是:我其实隐式地晓得超等智能应当如何行事,即便我自己头脑中没有一个紧凑的规则,超等智能也能做到。

Jan Leike:不是那样的,我觉得模型只是会变得足够聪明,足以知晓 Daniel 对于这个世界的所思所望。我觉得阻碍因素不是 AI 体系无法从根本上理解人类的所思所想,我觉得它也不会在这些事情上出错,因为它很聪明,能够阅读所有东西。如果它能阅读所有东西,那么情况对它而言就很清晰:人们无法阅读所有东西,也依然清楚这些。将人类的意图教给 AI 体系并非难事。真实难的是让 AI 体系也发自内心地相信,然后让它切实地做到。

Daniel Filan:嗯。所以它晓得目的就在某个地方,我们只必要搞清楚如何正确地将其与行动联系起来。

Jan Leike:嗯。你可以想象一个真实有能力的反社会体系,它完全晓得人类但愿它去做的事情,但决定不去做。这是完全能够发生的,而且这种事情也发生在人类自己身上。

关注 Jan 的研讨事务

Daniel Filan:了解了。嗯。现在是时候做总结了。感谢您慷慨地花时间与我们分享,最后我想问:如果有人有兴趣关注你们的研讨或参与进来,他们该怎么做?

Jan Leike:嗯,好课题。很高兴你问这个课题。我们现在正努力聘请良多人。我们但愿为超等对齐团队填充人员。如果帮助我们在四年内对齐超等智能听起来很有吸引力,请考虑申请。你可以在 openai.com/jobs (http://openai.com/jobs 上找到我们的招聘信息。如果你想关注我对对齐的具体看法,我有一个 Substack 账号号、,即 aligned.substack.com。你也可以在 Twitter 上关注我。我的 Twitter 账号是 @janleike。十分感谢你关注我们的事务。

给TA打赏
共{{data.count}}人
人已打赏
AI

ChatGPT写的论文有多少宣布了?搜完google学术以后我慌了

2023-8-11 14:36:00

AI

对话杨植麟:Moonshot AI即将完成超10亿元融资,公司最终目标并非逾越OpenAI

2023-8-14 14:46:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索