如果 GPT-4 在模仿基于常识义务的状况变化时准确率都只有约 60%,那么我们还要考虑将大语言模型作为全国模仿器来使用吗?
最近两天,一篇入选 ACL 2024 的论文《Can Language Models Serve as Text-Based World Simulators?》在社交媒体 X 上引发了热议,就连图灵奖得主 Yann LeCun 也参与了进来。
这篇论文探讨的问题是:当前语言模型本身是否可以充当全国模仿器,并错误展望作为如何改变不同的全国状况,从而避免大量手动编码的需要呢?
针对这一问题,来自亚利桑那大学、纽约大学、约翰斯・霍普金斯大学、微软研究院、 艾伦人工智能研究所等机构的研究者在「基于文本的模仿器」上下文中给出了他们的答案。
他们认为:语言模型并不能作为全国模仿器使用。比如,GPT-4 在模仿基于常识义务(如烧开水)的状况变化时,准确率仅为约 60%。
x 地址:https://x.com/peterjansen_ai/status/1801687501557665841
Yann LeCun 对这篇论文的发现表明了认同,并认为「没有全国模型,也就没有规划。」
X 地址:https://x.com/ylecun/status/1801978192950927511
不过也有人表达了不同的观点:当前 LLM(没有进行针对性义务训练)的准确率可以达到 60%,这不就说明了它们至少是「一定程度上的全国模型」吗?并且会随着 LLM 的迭代而持续改进。LeCun 又表明,全国模型不会是 LLM。
回到论文中,研究者构建并使用了一个全新的基准,他们称为「ByteSized32-State-Prediction」,包含了一个文本游玩状况变换和随附游玩义务组成的数据集。他们首次使用该基准来直接量化大语言模型(LLM)作为基于文本的全国模仿器的本能。
通过在这个数据集上测试 GPT-4,研究者发现:尽管它的本能令人印象深刻,但如果没有进一步的创新,它仍然是一个不可靠的全国模仿器。
因此,研究者认为,他们的工作既为当前 LLM 的能力和弱点提供了新的见解,也为跟踪新模型出现时的未来进展提供了一个新的基准。
论文地址:https://arxiv.org/pdf/2406.06485
方法概览
研究者探究了 LLM 在基于文本的虚拟情况中充当全国模仿器的能力,在这种情况中,智能体接收观察结果并以自然语言提出操作以完成某些目标。
每个文本情况都可以正式表明为具有 7 元组 (S,A,T,O,R,C,D) 的目标条件部分可观察马尔可夫决策过程 (POMDP),S 表明状况空间,A 表明作为空间,T : S×A→S 表明变换函数,O 表明观察函数,R : S×A→R 表明奖励函数,C 表明描述目标和作为语义的自然语言「上下文消息」,D : S×A→{0,1} 表明二元完成指示函数。
大模型模仿器(LLM-Sim)义务
研究者提出了一个展望义务,称它为 LLM as-a-Simulator (LLM-Sim),用来定量评估语言模型作为可靠模仿器的能力。
LLM-Sim 义务是将一个函数 F : C×S×A→S×R×{0,1} 作为全国模仿器来实现。在实践中,破碎状况变换模仿器 F 应该考虑两种类型的状况变换:作为启动变换和情况启动变换。
图 1 为使用 LLM 作为文本游玩模仿器的示例:打开水槽后,水槽中的杯子被水填满的过程。作为启动变换是采取打开水槽的作为后,水槽被打开(isOn=true);而情况启动变换是在水槽打开时,水填满水槽中的杯子。
为了更好地理解 LLM 对每个变换进行建模的能力,研究者进一步将模仿器函数 F 分解为三个步骤:
作为启动变换模仿器:给定 c、s_t 和 a_t, F_act:C×S×A→S 展望 s^act_t+1,其中 s^act_t+1 表明作为引起的直接状况变化。
情况启动变换模仿器:给定 c 和 s^act_t+1,F_env:C×S→S 展望 s_t+1,其中 s_t+1 是任何情况启动变换后产生的状况。
游玩进度模仿器:给定 c、s_t+1 和 a_t, F_R:C×S×A→R×{0,1} 展望奖励 r_t+1 和游玩完成状况 d_t+1。
此外,研究者考虑了 LLM-Sim 义务的两种变体
破碎状况展望:LLM 输出破碎状况。
状况差距展望:LLM 仅输出输入和输出状况之间的差距。
数据和评估
为了完成这一义务,研究者引入了一个新的文本游玩状况变换数据集。该数据集为 「BYTESIZED32-State-Prediction (BYTESIZED32-SP) 」,它包含 76,369 个变换,表明为 (c,s_t,rt,d_t,a_t,s^act_t+1,s_t+1,r_t+1,d_t+1) 元组。这些变换是从 31 个不同的文本游玩中收集的。
下表 1 总结了额外语料库统计数据。
LLM-Sim 上的本能由模型相对于测试样本数据集上的真实标签的展望准确性来决定。根据实验条件,LLM 必须模仿东西属性(模仿 F_act、F_env 或 F)和 / 或游玩进度(模仿 F_R 或 F),定义如下:
东西属性:游玩中所有东西、每个东西的属性(如温度、大小),以及与其他东西的关系(如在另一个东西内或之上)。
游玩进度:智能体相对于总体目标的状况,包括当前累积的奖励、游玩是否已终止以及总体目标是否已实现。
研究者注意到,在每种情况下,LLM 都提供了 ground truth 先前状况(当函数为 F_env 时,先前状况为 s^act_t+1 )以及整体义务上下文。也就是说,LLM 始终执行单步展望。
实验结果
上图 1 演示了研究者使用上下文学习评估 LLM-Sim 义务中模型的本能。他们评估了 GPT-4 在破碎状况和状况差距展望机制中的准确性。该模型接收先前状况(编码为 JSON 东西)、先前操作和上下文消息,并生成后续状况(作为破碎的 JSON 东西或差距)。
下表 2 展示了 GPT-4 模仿破碎状况变换的准确性,以及单独模仿作为启动变换和情况启动变换的准确性。
研究者得出了以下几项重要发现:
展望作为启动变换比展望情况启动变换更简单。在最好的情况下,GPT-4 能够错误模仿 77.1% 的动向作为启动变换。相比之下,GPT-4 最多只能错误模仿 49.7% 的动向情况启动变换。
展望静态变换比动向变换更简单。不出所料,在大多数情况下,对静态变换进行建模比对动向变换进行建模要简单得多。
对于动向状况,展望破碎游玩状况更简单;而对于静态状况,展望状况差距更简单。展望动向状况的状况差距可以显著提高模仿静态变换的本能(>10%),而模仿动向变换时的本能会降低。
游玩规则很重要,LLM 能够生成足够好的游玩规则。当上下文消息中未提供游玩规则时,GPT-4 在所有三个模仿义务上的本能在大多数情况下都会下降。
GPT-4 在大多数情况下都能展望游玩进度。下表 3 展示了 GPT-4 展望游玩进度的结果。在上下文中加入了游玩规则信息后,GPT-4 可以在 92.1% 的测试用例中错误展望游玩进度。这些规则的存在在上下文中至关重要:如果没有它们,GPT-4 的展望准确率会下降到 61.5%。
人类在 LLM-Sim 义务中的表现优于 GPT-4。研究者对 LLM-Sim 义务进行了初步的人类研究。结果见下表 4。
结果发现,人类的整体准确率为 80%,而采样的 LLM 的准确率为 50%,并且不同注释者之间的差距很小。这表明,虽然义务对于人类来说总体上是直观且相对简单的,但对于 LLM 来说仍有很大的改进空间。
GPT-4 在需要算术、常识或科学知识时更简单出错。下图 2 展示了在整体状况变换、作为启动变换和情况启动变换中,展望结果的错误比例、将属性设置为不错误值的比例或未能更改属性值的比例。
我们可以观察到,GPT-4 能够很好地处理大多数简单的布尔值属性。错误集中出现在需要算术(如温度、timeAboveMaxTemp)、常识(如 current_aperture、current_focus)或科学知识(如 on)的非平凡属性上。
更多技术细节和实验结果请参阅原论文。