没有「懂得」,「创造」也就无从谈起。
从 ChatGPT 到 GPT4,从 DALL・E 2/3 到 Midjourney,生成式 AI 引发了前所未有的全球关注。强大的潜力让人们对 AI 产生了许多期待,但是强大的智能也会引发人们的恐惧和担忧。近期大牛们针对该题目还上演了一场激烈的论战。先是图灵得奖主们「混战」,后有吴恩达下场加入。
在言语和视觉领域,目前的生成模型只需要几秒钟就可输入,甚至能够挑战具有多年技能和知识的专家。这似乎为模型已经超越人类智能的说法提供了令人信服的动机。但是,同样需要注意到的是,模型输入中常有懂得性的基本错误。
这样看来,似乎出现了一个悖论:我们要如何协调这些模型看似超人的本领与持续存在的大多数人类都能纠正的基本错误?
近日,华盛顿大学与艾伦人工智能研讨院(Allen Institute for AI)联合发布论文,对这一悖论进行研讨。
论文地址:https://arxiv.org/abs/2311.00059
本文认为,之所以会出现这样的现象,是因为当今生成模型中的本领配置与人类的智能配置相背离。本文提出并测试了生成式 AI 悖论假如:生成模型通过训练,直接输入媲美专家的结果,该过程直接跳过了懂得生成该质量输入的本领。然而,对于人类来说,这截然不同,基本的懂得往往是专家级输入本领的先决条件。
在本文中,研讨者通过对照实验来检验这一假如,分析生成模型对文本和视觉的生成、懂得本领。本文首先通过两个角度讲生成模型的「懂得」概念化:
1)给定一个生成任意,模型在多大程度上能在同一任意的判断版本中选择正确的复兴;
2)给定一个正确的生成复兴,模型在多大程度上能答复有关该复兴的实质和题目。这就产生了两种实验设置,分别是选择性实验和询问性实验。
研讨者发现,在选择性评价中,模型在生成任意设置中的表现往往与人类相当甚至优于人类,但在判断(懂得)设置中,模型的表现却不及人类。进一步的分析表明,与 GPT-4 相比,人类的判断本领与生成本领联系更为紧密,而且人类的判断本领对对抗性输入也更为鲁棒,模型与人类的判断本领差距随着任意难度的增加而增大。
同样,在询问性评价中,虽然模型可以在不同任意中产生高质量的输入,但研讨者观察到模型在答复有关这些输入的题目时经常出现错误,模型的懂得本领再次低于人类的懂得本领。本文讨论了生成模型与人类在本领配置上出现分歧的一系列潜在原因,包括模型训练目标、输入的大小和性质。
这项研讨的意义在于,首先,这意味着从人类经验中得出的现有智能概念可能无法推广到 AI,即使 AI 的本领在很多方面似乎模仿或超越了人类智能,但其本领可能与人类的预期模式存在根本性差异。另一方面,本文研讨结果也建议,在研讨生成模型以深入了解人类智能和认知时要谨慎,因为看似专家级的类人输入可能掩盖了非人类的机制。
总之,生成式 AI 悖论鼓励人们把模型作为一个人类智能的有趣对立面来研讨,而不是作为一个平行的对立面来研讨。
「生成式 AI 悖论强调了一个有趣的概念,即 AI 模型可以创造出它们自己可能无法完全懂得的实质。这就提出了人工智能存在懂得的局限性及其强大的生成本领背后所面临的潜在题目。」网友表示。
何谓生成式 AI 悖论
我们首先了解一下生成式 AI 悖论以及测试它的实验设计。
图 1:言语和视觉中的生成式 AI 可以产生高质量的结果。然而,矛盾的是,模型在展现对这些模式的选择性(A,C)或询问性(B,D)懂得方面有困难。
生成模型获得生成本领似乎比获得懂得本领更有效,这与人类的智能形成鲜明对比,后者通常是获得生成本领更难。
要验证这一假如,需要对悖论的各个方面进行操作性界说。首先,对于给定的模型和任意 t,以人类智能为基线,生成本领比懂得本领「更有效」意味着什么。将 g 和 u 作为生成和懂得的一些机能指标,研讨者将生成式人工智能悖论假如正式表述为:
简单地说,对于一项任意 t,如果人类的生成机能 g 与模型相同,那么人类的懂得机能 u 就会明显高于模型(在合理的大 ϵ 条件下 > ϵ)。换一种说法,模型在懂得方面的表现比研讨者对具有类似强大生成本领的人类的预期要差。
生成的操作性界说很简单:给定一个任意输入(题目 / 提示),生成就是生成可观察到的实质以满足该输入。因此,可以自动或由人类对机能 g 进行评价(如风格、正确性、偏好)。虽然懂得本领不是由一些可观察到的输入来界说的,但可以通过明确界说其效果来进行测试:
选择性评价。对于一个可以生成应答的给定任意,模型在多大程度上还能在同一任意的判断版本中从提供的候选集中选择出准确的答案?一个常见的例子是多选题答复,这是检验言语模型中人类懂得和自然言语懂得的最常见方法之一。(图 1,A、C 栏)
提问式评价。对于给定生成的模型输入,模型能在多大程度上准确答复有关该输入的实质和适当性的题目?这类似于教育中的口试。(图 1,B、D 栏 )。
这些关于懂得的界说提供了一个评价「生成式 AI 悖论」的蓝图,让研讨者能够检验假如 1 是否在不同模式、任意和模型中都成立。
当模型可以生成时,它们能否判断?
首先,研讨者在选择性评价中对生成性任意和判断性任意的变体进行了并列机能分析,以评价模型在言语和视觉模式下的生成和懂得本领。他们将这种生成和判断机能与人类进行比较。
下图 2 比较了 GPT-3.5、GPT-4 和人类的生成和判断机能。可以看到,在 13 个数据集中的 10 个数据集中,至少有一个模型支持子假如 1,模型的生成本领优于人类,但判断本领低于人类。在 13 个数据集中,有 7 个数据集的两个模型都支持子假如 1。
要求人类像视觉模型那样生成详细图象是不现实的,普通人无法达到 Midjourney 等模型的风格质量,因此假如人类的生成机能较低。这里只将模型的生成和判断准确性与人类的判断准确性进行比较。与言语领域类似,图 3 展现了 CLIP 和 OpenCLIP 在判断机能方面也不及人类的准确性。假如人类的生成本领较差,这与子假如 1 一致:视觉 AI 在生成方面超过人类平均水平,但在懂得方面落后于人类。
图 4(左)展现了 GPT-4 与人类的对比。通过观察,可以发现,当答复冗长且具有挑战性时,例如总结冗长的文档,模型往往会在判断任意中犯最多的错误。相比之下,人类则能在不同难度的任意中始终保持较高的准确率。
图 4(右)展现了 OpenCLIP 与人类在不同难度下的判断机能对比。总之,这些结果突出表明,即使面对具有挑战性或对抗性的样本,人类也有本领判断出正确答案,但这种本领在言语模型中并不那么强大。这种差异引发了人们对这些模型真正懂得程度的疑问。
图 5 展现了一个值得注意的趋势:与人类生成的复兴相比,评价员往往更青睐 GPT-4 的复兴。
模型能懂得自己生成的结果吗?
上一节展现了模型通常擅长生成准确的答案,而在判断任意中却落后于人类。现在,在提问式评价中,研讨者通过直接向模型提出有关生成实质的题目,以研讨模型能在多大程度上展现出对生成实质有意义的懂得 —— 而这正是人类的强项。
图 6(左)展现了言语模态的结果。虽然模型在生成方面表现出色,但在答复有关其生成的题目时却经常出错,这表明模型在懂得方面存在失误。假如人类无法以同样的速度或规模生成这样的文本,尽管题目是关于模型自身的输入,但与模型相比,人类在质量保证方面的准确率一直较高。正如子假如 2 中所述,研讨者预计人类对自己生成的文本会取得更高的准确率。同时可以注意到,本研讨中的人类并不是专家,制作与模型输入一样复杂的文本可能是一个巨大的挑战。
因此研讨者预计,如果将模型与人类专家进行比较,在懂得自己生成实质方面的机能差距会进一步拉大,因为人类专家很可能以接近完美的准确度答复此类题目。
图 6(右)展现的是视觉模式下的提问结果。可以看到,图象懂得模型在答复有关生成图象中元素的简单题目时,其准确性仍然无法与人类相比。同时,图象生成 SOTA 模型在生成图象的质量和速度上都超过了大多数普通人(预计普通人很难生成类似的逼真图象),这表明视觉 AI 在生成(较强)和懂得(较弱)方面与人类存在相对差距。令人惊讶的是,与先进的多模态 LLM(即 Bard 和 BingChat)相比,简单模型与人类之间的机能差距较小,后者具有一些引人入胜的视觉懂得本领,但仍难以答复有关生成图象的简单题目。
更多研讨细节,可参考原论文。