ACL 2024论文盖棺定论：大语言模型≠全国模仿器，Yann LeCun：太对了

如果 GPT-4 在模仿基于常识义务的状况变化时准确率都只有约 60%，那么我们还要考虑将大语言模型作为全国模仿器来使用吗？最近两天，一篇入选 ACL 2024 的论文《Can Language Models Serve as Text-Based World Simulators?》在社交媒体 X 上引发了热议，就连图灵奖得主 Yann LeCun 也参与了进来。这篇论文探讨的问题是：当前语言模型本身是否可以充当全国模仿器，并错误展望作为如何改变不同的全国状况，从而避免大量手动编码的需要呢？针对这一问题，来自亚利

如果 GPT-4 在模仿基于常识义务的状况变化时准确率都只有约 60%，那么我们还要考虑将大语言模型作为全国模仿器来使用吗？

最近两天，一篇入选 ACL 2024 的论文《Can Language Models Serve as Text-Based World Simulators?》在社交媒体 X 上引发了热议，就连图灵奖得主 Yann LeCun 也参与了进来。

这篇论文探讨的问题是：当前语言模型本身是否可以充当全国模仿器，并错误展望作为如何改变不同的全国状况，从而避免大量手动编码的需要呢？

针对这一问题，来自亚利桑那大学、纽约大学、约翰斯・霍普金斯大学、微软研究院、艾伦人工智能研究所等机构的研究者在「基于文本的模仿器」上下文中给出了他们的答案。

他们认为：语言模型并不能作为全国模仿器使用。比如，GPT-4 在模仿基于常识义务（如烧开水）的状况变化时，准确率仅为约 60%。

ACL 2024论文盖棺定论：大语言模型≠全国模仿器，Yann LeCun：太对了 x 地址：https://x.com/peterjansen_ai/status/1801687501557665841

Yann LeCun 对这篇论文的发现表明了认同，并认为「没有全国模型，也就没有规划。」

ACL 2024论文盖棺定论：大语言模型≠全国模仿器，Yann LeCun：太对了 X 地址：https://x.com/ylecun/status/1801978192950927511

不过也有人表达了不同的观点：当前 LLM（没有进行针对性义务训练）的准确率可以达到 60％，这不就说明了它们至少是「一定程度上的全国模型」吗？并且会随着 LLM 的迭代而持续改进。LeCun 又表明，全国模型不会是 LLM。

ACL 2024论文盖棺定论：大语言模型≠全国模仿器，Yann LeCun：太对了

回到论文中，研究者构建并使用了一个全新的基准，他们称为「ByteSized32-State-Prediction」，包含了一个文本游玩状况变换和随附游玩义务组成的数据集。他们首次使用该基准来直接量化大语言模型（LLM）作为基于文本的全国模仿器的本能。

通过在这个数据集上测试 GPT-4，研究者发现：尽管它的本能令人印象深刻，但如果没有进一步的创新，它仍然是一个不可靠的全国模仿器。

因此，研究者认为，他们的工作既为当前 LLM 的能力和弱点提供了新的见解，也为跟踪新模型出现时的未来进展提供了一个新的基准。

ACL 2024论文盖棺定论：大语言模型≠全国模仿器，Yann LeCun：太对了

论文地址：https://arxiv.org/pdf/2406.06485

方法概览

研究者探究了 LLM 在基于文本的虚拟情况中充当全国模仿器的能力，在这种情况中，智能体接收观察结果并以自然语言提出操作以完成某些目标。

每个文本情况都可以正式表明为具有 7 元组 (S,A,T,O,R,C,D) 的目标条件部分可观察马尔可夫决策过程 (POMDP)，S 表明状况空间，A 表明作为空间，T : S×A→S 表明变换函数，O 表明观察函数，R : S×A→R 表明奖励函数，C 表明描述目标和作为语义的自然语言「上下文消息」，D : S×A→{0,1} 表明二元完成指示函数。

大模型模仿器（LLM-Sim）义务

研究者提出了一个展望义务，称它为 LLM as-a-Simulator (LLM-Sim)，用来定量评估语言模型作为可靠模仿器的能力。

LLM-Sim 义务是将一个函数 F : C×S×A→S×R×{0,1} 作为全国模仿器来实现。在实践中，破碎状况变换模仿器 F 应该考虑两种类型的状况变换：作为启动变换和情况启动变换。

图 1 为使用 LLM 作为文本游玩模仿器的示例：打开水槽后，水槽中的杯子被水填满的过程。作为启动变换是采取打开水槽的作为后，水槽被打开（isOn=true）；而情况启动变换是在水槽打开时，水填满水槽中的杯子。

ACL 2024论文盖棺定论：大语言模型≠全国模仿器，Yann LeCun：太对了

为了更好地理解 LLM 对每个变换进行建模的能力，研究者进一步将模仿器函数 F 分解为三个步骤：

ACL 2024论文盖棺定论：大语言模型≠全国模仿器，Yann LeCun：太对了

作为启动变换模仿器：给定 c、s_t 和 a_t， F_act：C×S×A→S 展望 s^act_t+1，其中 s^act_t+1 表明作为引起的直接状况变化。

情况启动变换模仿器：给定 c 和 s^act_t+1，F_env：C×S→S 展望 s_t+1，其中 s_t+1 是任何情况启动变换后产生的状况。

游玩进度模仿器：给定 c、s_t+1 和 a_t， F_R：C×S×A→R×{0,1} 展望奖励 r_t+1 和游玩完成状况 d_t+1。

此外，研究者考虑了 LLM-Sim 义务的两种变体

破碎状况展望：LLM 输出破碎状况。

状况差距展望：LLM 仅输出输入和输出状况之间的差距。

数据和评估

为了完成这一义务，研究者引入了一个新的文本游玩状况变换数据集。该数据集为「BYTESIZED32-State-Prediction (BYTESIZED32-SP) 」，它包含 76,369 个变换，表明为 (c,s_t,rt,d_t,a_t,s^act_t+1,s_t+1,r_t+1,d_t+1) 元组。这些变换是从 31 个不同的文本游玩中收集的。

下表 1 总结了额外语料库统计数据。

ACL 2024论文盖棺定论：大语言模型≠全国模仿器，Yann LeCun：太对了