GPT-4能「伪装」成人类吗?图灵尝试结果出炉

纯文本对话,安能辩我是 AI?在尝试 AI 时,图灵尝试是一个饱受争议但也久负盛名的评估方法,因此总会有研究者不畏繁琐,对新兴的说话模型进行图灵尝试。近日,对 GPT-4 的图灵尝试结果新鲜出炉了。                                 此图由AI生成「机器能够思考吗?」为了解答这个问题,图灵安排了一个能间接提供答案的模仿游玩。该游玩的最初安排涉及到两位见证者(witness)和一位审问者(interrogator)。两位见证者一个是人类,另一个是人工智能;他们的目标是通过一个纯文本的交互

纯文本对话,安能辩我是 AI?在尝试 AI 时,图灵尝试是一个饱受争议但也久负盛名的评估方法,因此总会有研究者不畏繁琐,对新兴的说话模型进行图灵尝试。近日,对 GPT-4 的图灵尝试结果新鲜出炉了。

GPT-4能「伪装」成人类吗?图灵尝试结果出炉

                                 此图由AI生成

「机器能够思考吗?」

为了解答这个问题,图灵安排了一个能间接提供答案的模仿游玩。该游玩的最初安排涉及到两位见证者(witness)和一位审问者(interrogator)。两位见证者一个是人类,另一个是人工智能;他们的目标是通过一个纯文本的交互接口说服审问者相信他们是人类。这个游玩本质上是开放性的,因为审问者可以提出任何问题,不管是关于浪漫爱情,抑或是数学问题。图灵认为这一性质能够对机器的智能进行广泛的尝试。

后来这个游玩被称为图灵尝试(Turing Test),但人们也在不断争论这一尝试究竟测算的是什么以及哪些系统有威力通过它。

以 GPT-4 为代表的大型说话模型(LLM)简直就像是专为图灵尝试而生的!它们能生成流畅自然的文本,并且在许多说话相关的任务上都已达到比肩人类的水平。实际上,已经有不少人在猜测 GPT-4 也许能够通过图灵尝试了。

近日,加利福尼亚大学圣迭戈分校的研究者 Cameron Jones 和 Benjamin Bergen 发布了一份研究报告,给出了他们对 GPT-4 等 AI 智能体进行图灵尝试的实证研究结果。

GPT-4能「伪装」成人类吗?图灵尝试结果出炉

论文地址:https://arxiv.org/pdf/2310.20216.pdf

但在介绍这份研究的结果之前,需要说明的是,图灵尝试究竟能否作为衡量智能水平的标准一直以来都颇具争议。

但 Jones 和 Bergen 认为图灵尝试还是值得研究的,他们给出了两点来由:

一、图灵尝试衡量的是 AI 系统能否欺骗对话者使之相信它是人类,这项威力本身是值得评估的。因为创造「伪人」能够会对社会产生巨大的影响,包括实现面向客户的工作岗位自动化、更低成本更高效地制造虚假信息、应用非对齐的 AI 模型从事欺诈活动、让人类不再相信人与人之间的真实互动。图灵尝试能让人稳健地跟踪模型的这种威力随时间的变化情况。此外,它还能让人理解哪些因素有助于欺骗,比如模型大小和性能、prompt 安排技术、辅助性基础设施(例如访问实时信息的威力)以及审问者的经验和技能。

二、图灵尝试能提供一个帮助研究人类和类人智能的框架。图灵尝试不仅仅是评估机器;它也会涉及对人类参与者的文化、道德伦理和心理状态的假设。当审问者安排并完善问题时,他们也会隐含地揭示自己的信念 —— 人类有哪些特质以及哪些特质最难模仿。为此,研究者以定性方式分析了参与者安排问题的政策和来由依据,以为这些信念提供一个经验性的描述。

Cameron Jones 和 Benjamin Bergen 在 652 位人类参与者的帮助下检验了 GPT-4 模仿人类的威力,结果发现表现最好的设置能达到 41% 的成功率,还不及随机乱猜,更不及人类水平的 63%,因此可认为 GPT-4 未能通过图灵尝试。他们还在尝试过程中得到了一些惊人发现和有趣推断,比如诞生于 1966 年的规则式系统 ELIZA 的表现比 GPT-3.5 更好、AI 不犯错或犯错过多都容易暴露自己。

方法

在具体的图灵尝试实验中,研究者采用了双玩家设置,即审问者对一位见证者提问,然后说明他认为对方是人类还是 AI。

见证者

研究者创建了 25 个 LLM 见证者,它们应用 OpenAI API 呼应用户查询。每个 LLM 见证者都包含一个模型(GPT-3.5 或 GPT-4)、一个温度值(0.2、0.5 或 1.0)和一个 prompt。prompt 描述了交互的上下文以及对于智能体呼应方式的指令,如图 2 所示。GPT-4能「伪装」成人类吗?图灵尝试结果出炉交互界面

研究者将谈天界面安排成了一个谈天软件的样子,如图 1 所示。审问者发送第一条消息,每位用户每次只能发送一条消息。对话整体限时 5 分钟,每条消息最多 300 个字符。

GPT-4能「伪装」成人类吗?图灵尝试结果出炉

流程

参与者是通过社交媒体在网上招募的。

参与者会先进入一个在线等候室,然后被随机分配与 AI 或另一个人类对话。AI 在呼应时有一个等待时间,具体是最近 5 对人类参与者所用的平均等待时间,以防止审问者将等待时间视为一个评估指标。

当随机配对的是两个人类时,则随机分配审问者和见证者角色。见证者得到的指令是说服审问者相信他们是人类。当人类与 AI 匹配时,则人类必定是审问者。

AI 模型的选取应用了「探索 / 利用」政策。对于每个模型,都从以下分布中选取一个样本:

GPT-4能「伪装」成人类吗?图灵尝试结果出炉

其中 N 是模型数量,α 和 β 分别是模型在游玩过程中的胜负次数并依照审问者对每个判定结果的信心度加权。最后选择得到了最高样本值的模型。

结果

实验共有 652 位参与者参加,总共完成了 1810 场游玩。其中 389 场游玩被移出最终结果,因为这些场之前审问者已经连续三次与 AI 对话了,这种情况说明此时只有一个人类在线。用户反馈表明,这种情况会导致审问者产生一个先验信念 —— 相信见证者不是人类。另外还有 11 场游玩被移除的原因是审问者表示他们私下认识对话的人类见证者。

最终结果基于剩余的 1405 场游玩,其中 260 场有人类见证者参与。

51% 的参与者只玩了一场游玩,91% 的参与者少于 4 场。

游玩平均时长为 187 秒(σ = 95.3),平均消息数为 8(σ = 5.16),平均词数为 320(σ = 210)。

下图展示了一些游玩示例:

GPT-4能「伪装」成人类吗?图灵尝试结果出炉

成功率

成功率(SR)的定义是审问者认为一个见证者是人类(即见证者成功)的游玩场数的比例。人类见证者的表现最好,成功率为 63%(见图 4)。

GPT-4能「伪装」成人类吗?图灵尝试结果出炉

表现最好的 GPT-4 prompt(Sierra)的成功率为 41%,也有其它几个表现相近的 GPT-4 prompt(November 为 40%,Papa 为 36%)。但是,从图中也可看出,不同 prompt 的表现差异很大。

GPT-3.5 的成功率只有 5% (Victor) 到 14% (Juliet)。而 1966 年诞生的基于规则的 ELIZA 反倒实现了 27% 的成功率,甚至超过一些 GPT-4 prompt。

不过需要注意的是,由于整体游玩场数较少,某些 prompt 被调用的次数还格外少,比如 Victor (GPT-3.5) 仅被采样了 21 次(见表 1),因此成功率结果并不非常可靠。

GPT-4能「伪装」成人类吗?图灵尝试结果出炉

审问者的人口学信息

我们知道人口学因素(比如年龄、性别和教育水平)会对人机交互产生影响,而研究者也尝试了是否可通过这些因素来预测审问者的辨别威力。

但他们表示并未发现这些因素对准确度有明显影响。这里的准确度是指审问者正确猜出对方是人类或 AI 的比例,见图 6。

GPT-4能「伪装」成人类吗?图灵尝试结果出炉

政策

研究者基于 300 场游玩样本,对审问者采用的政策进行了分类。

图 7 给出了被应用最多的 20 种政策。其中最常见的政策是闲聊(27%),也就是问见证者的日常生活和个人细节。

GPT-4能「伪装」成人类吗?图灵尝试结果出炉

研究者分析了不同政策的有效性,给出了应用不同政策时的平均准确度(见图 8),可以看到,最能够成功的政策是让见证者说外语、询问时间或时事以及直接询问对方是不是 AI 或宣称对方是 AI。

GPT-4能「伪装」成人类吗?图灵尝试结果出炉

断定的来由或依据

一些参与者提供了断定的来由或依据,研究者将它们分成了 6 大类别:说话气势派头、社交和情感、知识和内容、情境感知威力、元信息(模型控制范围外的游玩方面)、无信息(模糊或不相关的原因)。图 10 给出了审问者断定时最常采用的 20 个来由。

GPT-4能「伪装」成人类吗?图灵尝试结果出炉

讨论

GPT-4 通过了图灵尝试吗?

这里的结果表明,一些 GPT-4 见证者满足图灵设定的标准,即 30% 的时间骗过审问者,使其断定错误。但是,以 30% 为标准断言成功恐怕并不合适。更常用的基准应该是 50%。这可以表明审问者在一般情况下无法区分 AI 模型和人类。但这一基准也有个缺陷:随机乱猜也能达到 50% 的成功率。

研究者表示,如果要更严格的尝试,那么至少应该要求 AI 见证者被认为是人类的频率与人类见证者被认为是人类的频率一样高。也就是说 AI 见证者在图灵尝试中的表现应当与人类一样好。但研究者又讨论说这种比较能够对 AI 来说并不公平,因为 AI 必须欺骗审问者,而人类只需说实话即可。

更保守的方案是要求 AI 系统的表现显著超过随机乱猜或人类基准。从理论上讲,这个标准高得没有必要。而从实践角度看,用频率统计来展示图灵尝试结果能够是最简单的方法。

这里尝试的所有 AI 见证者都没达到 50% 的成功率,更不及人类水平(63%)了。因此,对于这里应用的 prompt,可以判定 GPT-4 没能通过图灵尝试。

GPT-4 能通过图灵尝试吗?

从图 4 可以看到,不同 prompt 得到的结果的差异很大。

研究者猜想:考虑到实验中探索的 prompt 有限,也许存在某个 prompt 能使 GPT-4 的成功率超过 50% 或人类基准。此外,一些辅助审问者断定见证者是 AI 的来由依据实际上很容易改正和解决,比如给出的信息过于充分、应用重复性的句子结构以及回避禁忌话题。

不过,prompt 工程安排的难度可不小。研究者谈到了自己的经验:在安排这些 prompt 时,为了解决一个问题所做的改变往往会引入新的指示因素,说明该系统不是人类。

其中表现最好的一些能达到 40% 左右的成功率。这一数值与另一项研究报告《Human or Not? A Gamified Approach to the Turing Test》的结果相近,因此可以认为这能代表当前 LLM 的威力。

讯问者人口学信息

令人惊讶的是,这里收集的人口学统计数据(包括与谈天机器人互动的频率、有关 LLM 的知识水平和所玩游玩的场数)对审问者的准确度没有任何显著影响。这说明与 LLM 的交互经验能够无助于区分 LLM 和人类。

对此,研究者给出了能够的解释:他们在安排 prompt 时为了使 LLM 给出的答案接近人类的答案,在冗长性、正式性、是否礼貌、拼写和语法错误方面都有专门安排。要是参与者原本很熟悉 LLM 的典型互动模式,能够会对这些谈天机器人给出的结果感到惊讶,因此之前的经验在这里就用不上了。

另一个能够的解释是选择性偏差。由于参与者是通过社交媒体招募的,因此占大多数的是 20-30 岁、接受过研究生教育且对 LLM 感兴趣的男性。

ELIZA 效应

ELIZA 相对的成功也出乎了研究者的意料,毕竟这个谈天机器人采用的是基于规则的技术,并且诞生于 1966 年。ELIZA 组合应用了模式匹配和替换,可以根据从用户输入中提取的关键内容和模板生成呼应。

尽管如此,ELIZA 却在 27% 的游玩中骗过了人类审问者,超过了一些 GPT-4 见证者和所有 GPT-3.5 见证者。

这样的结果可以佐证:图灵尝试确实不能精准地衡量智能水平。

政策

审问者采用了大量不同政策来辨别 AI 模型,这展现了图灵尝试作为一种交互式评估方法的灵活性。很多参与者采用的政策是闲聊,但 AI 模型其实非常擅长模仿这些典型类型的人类对话,因此闲聊并不是一个很有效的政策。

最有效的政策是应用外语,因为审问者会假定如果回答很专业,那就更能够是来自多说话说话模型。另一个有效的政策是询问当前的时间和发生的事件。尽管 prompt 中包含 UTC 标准的时间戳,但模型往往在转换时区时出错。

许多审问者会直接问对方是不是 AI。虽然 AI 会给出否定答案,但这个政策却相当有效。因为 AI 模型在说服审问者相信它们是人类时往往会「用力过猛」,而人类通常会给出随意即兴的回答。

断定的来由或依据

审问者在做出正确断定时所给出的来由中往往有说话气势派头一项。因为尽管 LLM 的训练语料中包含大量不同气势派头的文本,但生成与语境气势派头一致的内容还依然是一大难题。审问者会发现 AI 模型生成的结果要么过于正式,要么就过于不正式;语法要么太好,要么就糟糕得不真实;要么过于冗长,要么就过于简练。

这能够表明:1)在这种相当不寻常的语境中,适当的气势派头其实很微妙;2)不同的审问者对气势派头有不同的预期:没有一种气势派头能够说服每个审问者。

第二个最常见的原因类别是社交和情感。LLM 学习的是生成完备的呼应,并且经过微调以避免生成自相矛盾的结果。这些过程能够会鼓励模型生成一般化的典型呼应,但也因此缺乏个性,这也算是一种生态谬误(ecological fallacy)。

值得注意的是,很少有原因与见证者的知识或推理威力有关,这进一步证明经典意义上的智能不足以通过图灵尝试。断定来由的分布还说明现在的 LLM 模型已经足够智能了,因此社会 – 感情和说话气势派头才成为了审问者更看重的因素。当然也能够是因为这些线索一般来说能够更明显,因此对于尚未掌握这些威力的模型,可以将这些线索用作断定来由。

结论

人们普遍认为图灵尝试并非是一种完美的衡量智能的方法:要么太容易,要么太困难。Cameron Jones 和 Benjamin Bergen 在这个实证研究中找到了分别支持这两种观点的证据。

最终,他们认为 GPT-4 没能通过图灵尝试。

尽管如此,41% 的成功率也表明应用 AI 模型来进行欺诈已经有能够实现,尤其是当人类对话者没有提防对方能够并非人类时。

如果 AI 模型能够稳健地假装成人类,能够会造成广泛的社会和经济后果。随着 AI 模型威力日益增强,识别导致欺骗成功的因素并找到应对政策也会变得越来越重要。

给TA打赏
共{{data.count}}人
人已打赏
理论

吴恩达加入图灵奖得主讨论:「AI灭尽论」弊大于利

2023-11-1 14:57:00

理论

GPT-4 做「世界模型」,让LLM从「错题」中进修,推理威力显著提升

2023-11-3 14:34:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索