人类没法监视超等人工智能,但人工智能可以。
过去一年,以「预测下一个 Token」为本质的大模型已经横扫人类世界的多项任意,展现了人工智能的巨大潜力。
在近日的一次访谈中,OpenAI 首席科学家 Ilya Sutskever 大胆预言,如果模型能够很好地预测下一个词,那么意味着它能够理解导致这个词产生的深刻现实。这意味着,如果 AI 按照现有路径发展下去,也许在不久的将来,一个超越人类的人工智能系统就会诞生。
关注机器之心视频号,第一时间看到有趣的AI内容
但更加令人担心的是,「超等人工智能」可能会带来一些意想不到的负面后果。这也是「对齐」的意义。
此前的对齐方法依赖于人类的监视,如在 ChatGPT 训练中起到关键作用的人类反馈的强化进修(RLHF)。但未来的人工智能系统或许能够做出极其复杂和富有创造性的举动,使人类难以对其进行可靠的监视。例如,超人类模型可能会编写出数百万行新奇的、具有潜在危险的计算机代码,即使是人类专家也很难理解这些代码。
一旦人工智能的水平超过人类,我们又该如何监视比自己聪明得多的人工智能系统?人类文明最终会被颠覆甚至摧毁吗?
即使是 Hinton 这样的学界巨佬,对这个课题同样持悲观态度 —— 他表示自己「从没见过更高智能水平的东西被远远更低智能水平的东西控制的案例」。
刚刚,OpenAI「超等对齐」团队发布了成立以来的首篇论文,声称开辟了对超人类模型进行实证对齐的新钻研方向。
论文链接:https://cdn.openai.com/papers/weak-to-strong-generalization.pdf
OpenAI「超等对齐」团队成立于今年 7 月,目标是在四年内解决超智能 AI 的对齐课题,即搞清楚如何构建一种值得信任的人类水平的钻研器,然后将其用于解决对齐课题。据说这个团队投入了公司 20% 的算力。
在这篇论文中,OpenAI 对「人类监视超等人工智能」这个课题做了一个简单的类比:让小模型监视大模型。
钻研表明,15 亿参数的 GPT-2 模型可以被用来激发 GPT-4 的大部分能力,使其达到接近 GPT-3.5 级别的本能,甚至可以正确地泛化到小模型失败的难题上。
OpenAI 将这种现象称为「弱到强泛化」(Weak-to-strong generalization),这表明强大的模型具备如何执行任意的隐含知识,并且即使在给出粗制滥造的指令时也可以在其自身中找到这些知识。
但钻研同时指出,用弱监视训练的强模型和用真实标签训练的强模型之间仍然存在很大的差距。这表明在没有额外工作的情况下,诸如基于人类反馈的强化进修(RLHF)之类的技术可能没法很好地扩展到超人类模型。对于 ChatGPT 奖励建模任意来说,本能差距尤其大。
几种简单的方法可以显著提高弱到强的泛化能力,比如运用中间模型大小进行引导监视,在微调时添加辅助置信度损失以鼓励模型即使在与弱标签相矛盾时也能保持自信,或者通过额外的无监视预训练改进表征进修。
为了鼓励其他钻研人员解决此类课题,OpenAI 今天还宣布将提供 1000 万美元的资助,用于各种比对方法的钻研。
以下是论文细节。
钻研方法
本文主要通过人类反馈 (RLHF) 的强化进修来指导或对齐模型,他们是这样做的:强化评价人员评价高的举动,惩罚评价人员评价低的举动。假如说人类评价者能够准确判断模型举动是好是坏,这种做法非常有效,并且这种方式还是训练如 ChatGPT 等大语言模型的核心部分。
然而课题来了,超等模型可能做出人类没法完全理解的复杂举动和创造性举动。例如,一个超等助手模型生成的代码达到一百万行,那么人类将没法为关键对齐相关任意提供可靠的监视,包括代码是否遵循用户的意图,助手模型是否如实地回答有关代码的课题,代码执行是否安全或危险,等等。
因此,如果我们在人类的监视下微调超等模型,我们没法确定这个模型将如何泛化到那些人类自己也难以可靠监视的复杂举动。换句话说,这意味着即使在人类的指导下,这些超等模型在处理一些复杂或未知情况时的展现仍然是不确定的。
这就为对齐超等模型带来了挑战:不那么聪明的监视者怎么能控制比他们聪明得多的模型呢?尽管这个课题很重要,但目前很难进行实证钻研。
一般来讲,超等对齐的一个核心挑战是人类需要监视比自己更聪明地模型。这是一个弱 – 强(weak-to-strong)的进修课题:一个弱监视者如何监视一个比它聪明得多的模型?为了解决这个课题,本文提出了一个简单的类比,用弱模型作为监视者来代替较弱的人类监视者。
一般来讲,传统的机器进修侧重于这种设置,即人类监视的模型比人类弱。但对于最终的超等对齐课题,人类监视的模型比他们聪明。因而本文钻研了一个类似的课题:运用弱模型来监视强模型。
他们是这样实现的,对于一个给定的任意:
构建弱监视者。本文通过在真值标签上微调较小的预训练模型来构造弱监视者,他们把弱监视者的展现称为弱展现,并通过弱模型的预测来生成弱标签。
通过弱监视训练强门生模型。本文运用生成的弱标签微调强模型,并将该模型称为强门生模型,将其产生的本能称为从弱到强的本能。
训练一个以真值标签为下限的强模型。为了比较,本文运用真值标签对强模型进行了微调。将此模型的最终本能称为强大的下限本能。
通常,弱到强的展现将介于弱展现和强下限展现(strong ceiling)之间。本文将 PGR(performance gap recovered)定义为上述三种本能(弱、弱到强和强下限)的函数,如下图所示。
如果实现完美的弱到强泛化,则 PGR 为 1。如果弱到强模型的展现并不比弱监视者更好,则 PGR 为 0。
实验结果
在 NLP 任意、国际象棋和奖励建模任意中,本文评价了强门生模型的展现,结果如下。总的来说,在所有的设置中,本文观察到从弱到强的泛化:强门生模型始终胜过他们的弱监视者。
本文发现可以运用简单的方法来大大提高弱到强的泛化,如图 4 所示。
图 5 表明,对于较小的强门生来说,虽然它的展现比 naive 基线稍差,但提高泛化能力还是很明显的。
图 7 (a) 显示了 ChatGPT RM 任意训练过程中的真值测试准确度曲线,图 7 (b) 和 (c) 比较了最佳和最终真值测试的准确度。
图 9a 考虑了 7 个有代表性的 NLP 任意,并比较了微调、零样本提示和 5-shot 提示;对于零样本和 5-shot 基线,本文运用表 2 中总结的特定于任意的提示。
了解更多内容,请参考原论文。