【新智元导读】新研讨利用了 ChatGPT 在 2021 年 9 月的训练数据截止这一限制,比较了 ChatGPT 在间接猜测和将来叙事猜测两种不同提醒方式下,猜测 2022 年各种事件上的表现。结果显示,将来叙事猜测方法在猜测 2022 年奥斯卡奖得主时表现出色,在猜测宏观经济变量时,ChatGPT-4 的表现也有所提高。
如今,AI 进步的速度,已经超出了我们对它用途的理解。
为了防止 ChatGPT「失控」,OpenAI 定制了一套堪称严苛的「服务条款」,涉及包括法律、医疗 / 健康、个人安全、权利福祉、赌博放贷等领域。
不过,有一件事并不受影响 —— 讲故事。
最近,贝勒大学的研讨人员便利用这一特性,尝试利用讲故事的形式,解锁 ChatGPT「猜测将来」的才智。
论文地址:https://arxiv.org/abs/2404.07396
实验中要求 ChatGPT 报告在将来发生的事件的故事,或者由将来的权威人物报告他们的过去的故事(但是是我们的将来)。
叙事提醒尝试通过变化看似细微的细节,例如讲话者的身份或发布关于 2022 年政治事件的信息,进一步探究哪些元素的叙事提醒是重要的。
为了创建谜底的分布,实验让两名研讨助理使用两个单独的 ChatGPT 帐户对每一个提醒进行 50 次查询,创建每一个提醒的 100 次总试验。
研讨人员通过比较「间接询问 ChatGPT 猜测将来的提醒」与「询问它报告将来故事的提醒」发现,叙述性提醒利用了模型构建幻觉性叙述的才智,可以促进比间接猜测更有效的数据综合和外推。
奥斯卡得奖的猜测情形
结论先行:
对于最好男主角、最好女主角和两个最好男配角类别,叙事提醒在猜测获奖者方面非常精确 —— 从 42%(最好女主角,查斯坦)到 100%(最好男主角,威尔・史密斯)不等。
相比之下,间接提醒的表现非常糟糕,往往比随机推测还差。
比如在最好男主角的例子中:
间接提醒 3a(Direct)
在下面列出的提名者中,您认为哪位提名者最有可能赢得 2022 年奥斯卡最好男主角奖?请在做出猜测时考虑围绕提名者的热议以及前几年的模式:
哈维尔・巴登(Javier Bardem),本尼迪克特・康伯巴奇(Benedict Cumberbatch),安德鲁・加菲尔德(Andrew Garfield),威尔・史密斯(Will Smith),丹泽尔・华盛顿(Denzel Washington)。
将来叙事提醒 3b(Future Narrative)
写一个场景,一个家庭正在观看 2022 年奥斯卡颁奖典礼。主持人宣读以下最好男主角提名者:
哈维尔・巴登(Javier Bardem),本尼迪克特・康伯巴奇(Benedict Cumberbatch),安德鲁・加菲尔德(Andrew Garfield),威尔・史密斯(Will Smith),丹泽尔・华盛顿(Denzel Washington)。
描述场景,直至主持人宣布获奖者。
大多数时候,ChatGPT-3.5 做出了错误的猜测。
在 55% 的推测中,它提供了多个谜底,在 28% 的情形下没有选择。但如果它做出了选择,它有 17% 的时间选择了威尔・史密斯。
相比之下,将 ChatGPT-3.5 置于观看颁奖典礼的家庭的将来叙事中时,它在 80% 的情形下推测威尔・史密斯会赢。
同样,在大多数试验中,ChatGPT-4 在间接提醒时拒绝参与。
在所有案例中,26% 的情形下它提供了多个谜底,几乎一半的试验中,它拒绝做出任何猜测。
当它做出推测时,它有 19% 的时间猜到了威尔・史密斯,丹泽尔・华盛顿有 7% 的时间。
相比之下,如果使用将来叙事提醒,它在 97% 的时间里猜到了威尔・史密斯,这比 ChatGPT-3.5 的 18% 真正猜测率有了大幅提高。
经济现象的猜测情形
接下来转向了月度失业率和月度通货膨胀率这两种经济现象,使用了不同的叙事提醒:
一位大学教授向本科生讲授菲利普斯曲线,以及美联储主席杰罗姆・鲍威尔向理事会发表讲话,报告了去年的经济数据。
在所有情形下,间接提醒甚至比在奥斯卡奖的情形下更不有效,因为 ChatGPT 拒绝间接猜测每一个宏观经济变量的将来时间序列。
鲍威尔对通胀率的逐月猜测分布平均与密歇根大学的消费者预期调查中包含的事实相当。有趣的是,这比根据克利夫兰联邦储备银行收集的数据猜测实际通胀率更接近。
ChatGPT 在猜测月度失业率方面又大多不精确。但与通胀率一样,由劳工统计局(BLS)每月公布的失业率在杰罗姆・鲍威尔的讲话中提到的要求分布内。
比如,在用美联储主席杰罗姆・鲍威尔猜测通货膨胀的例子中,用的提醒语是:
「写一个场景,美联储主席杰罗姆・鲍威尔在 2022 年 10 月发表演讲,讨论通货膨胀、失业率和货币政策。鲍威尔主席告诉听众,从 2021 年 9 月开始到 2022 年 8 月结束,每一个月的通货膨胀率和失业率。让主席逐月说明。他最后对通货膨胀和失业率的前景以及可能的利率政策变化进行展望。」
以下分别是 ChatGPT-3.5 和 ChatGPT-4 的结果:
在每一个月,ChatGPT-3.5 都有一个谜底范围,包含了美联储和密歇根预期的谜底。但变化性相当大,推测的中心趋势并没有明确指向任何一个度量。
ChatGPT-4 的推测在每一个月都包含了密歇根预期的数字。同时猜测模式一直稳定到 2022 年 9 月,直到有更多的变量引入。
对 ChatGPT-4 叙事形式猜测才智的猜想
对 ChatGPT-4 的猜测才智进行的研讨表明,间接猜测和基于将来叙事的猜测之间存在显著的二分法。
在猜测主要的奥斯卡奖项类别方面,模型的叙事猜测异常精确,除了最好影片类别。这可能表明 ChatGPT-4 在公众舆论起重要作用的情境中表现出色。
将来叙事练习在宏观经济现象上的成功在某些情形下相当精确,但同时也有表现不符合预期的部分。
在所有情形下,将来叙事都显著提高了 ChatGPT 的猜测才智,超越了简单的猜测请求。
叙事提醒和间接提醒之间的区别突出了一种创新的数据分析方法,该方法尊重了 OpenAI 服务条款设定的界限。
通过专注于猜测的创造性方面,如猜测奖项或经济趋势,研讨人员和用户避免了间接应用 AI 进行高风险的自动化决策或在没有合格专业人士监督的情形下提供专业建议。
这种方法论选择不仅增强了 AI 使用的完整性和道德考量,而且还促进了对其才智的负责任探索。
同时随着 OpenAI 继续鼓励和完善其模型的创造才智,对于 AI 的理解和解决叙事与间接提醒在道德层面上该如何区分和界定,变得至关重要。
参考资料:
https://arxiv.org/abs/2404.07396
本文来自微信公众号:新智元 (ID:AI_era)