大模型在搀杂推理任务上潜力如何？多智能体互动框架ThinkThrice玩转脚本杀

脚本杀是一种广受欢迎的多脚色扮演侦察游玩，要求玩家扮演不同的脚色。通过阅读脚色文本、懂得各自的故事、搜集线索、以及逻辑推理，玩家们共同努力揭开谜团。游玩脚色通常被分为平民和凶手两大类：平民的目标是找出隐藏在他们中间的凶手，而凶手则尽力隐藏自己的身份，避免被发现。那么，如果让 AI 加入游玩，会产生怎样的新变化呢？脚本杀游玩流程。加拿大蒙特利尔大学和 Mila 研讨所的研讨团队带来了一项令人兴奋的新研讨，将 AI 的潜力引入到脚本杀游玩中。这项

脚本杀游玩流程。

加拿大蒙特利尔大学和 Mila 研讨所的研讨团队带来了一项令人兴奋的新研讨，将 AI 的潜力引入到脚本杀游玩中。这项研讨不仅展现了大型语言模型（LLM）在搀杂叙事环境中的应用潜力，而且为 AI 智能体的推理威力评价设定了新的试验场。让我们一起深入了解这项研讨的细节和其带来的启发。

大模型在搀杂推理任务上潜力如何？多智能体互动框架ThinkThrice玩转脚本杀

论文链接：https://arxiv.org/abs/2312.00746

研讨动机：AI 与脚本杀的交汇

AI 的进步已经使其被广泛应用于各种游玩中。然而，脚本杀游玩以其独特的玩法和搀杂的设置，仍是一块待开发的新领域。为了将 AI 引入脚本杀游玩中，蒙特利尔大学的研讨团队面临三个主要挑战：

首先，脚本杀游玩中搀杂的脚色情节和人物关系要求 AI 不仅要懂得所扮演的游玩脚色的背景和动机，还要能够适应游玩剧情的多层次叙事，通过在游玩中和其他脚色互动来采集其他脚色的信息、还原案件原貌。

其次，由于缺乏专门为脚本杀安排的数据集，需要开发一个包含丰富文本的脚本杀数据集，这对于启动和评价 AI 模型至关重要。

最后，如何准确定量和定性地评价 AI 在脚本杀游玩中的表现也是极具挑战性的任务。因为在脚本杀游玩中，目标不仅是赢得比赛，更重要的是懂得游玩剧情并揭露案件的真相。为此，AI 需要在参与游玩的过程中展示出卓越的沟通交流、信息采集以及逻辑推理威力。

这项研讨的贡献主要涵盖四个方面：

首先，团队构建了一个专门针对脚本杀游玩的数据集，旨在启动和评价 AI 模型；

其次，团队安排了一个多智能体互动框架，允许脚本杀游玩自动进行，从而无需人为干预；

再者，团队开发了一套量化和质化评价方法，以评价 LLM 智能体在游玩中的信息搜集和推理威力；

最后，通过利用最新的上下文学习技术，团队安排了增强 LLM 智能体性能的模块。

此项研讨不仅推动了 AI 在多脚色互动的搀杂叙事游玩：脚本杀中的应用研讨，也为智能体的评价和性能优化提供了新的视角和方法。

数据集构建：脚本杀游玩的数字化转型

为了在脚本杀的环境下启动和评价 AI 模型，研讨团队精心采集了 1115 个脚本杀游玩案例，创建了一个庞大的数据库。这些游玩包含了丰富的关于脚本杀游玩的游玩规则、剧情故事、脚色背景、案件线索等文本信息，为 AI 的仿真和测试提供了理想的素材，使得研讨人员能够在模拟的环境中准确观察和评价 AI 智能体的表现。此外，数据集还提供了图片、视频、音频等多模态的信息，为未来多模态的 AI 智能体的开发和测试提供了可能。

大模型在搀杂推理任务上潜力如何？多智能体互动框架ThinkThrice玩转脚本杀

表 1. 脚本杀数据集中不同模态的游玩脚本数量

大模型在搀杂推理任务上潜力如何？多智能体互动框架ThinkThrice玩转脚本杀

表 2：脚本杀数据集中游玩脚本的玩家数量和token统计。

ThinkThrice 框架：AI 如何玩转脚本杀

研讨团队开发了一个名为 ThinkThrice (三思) 的多智能体互动框架，允许基于 LLM 的 AI 智能体自主参与脚本杀游玩。这个框架通过记忆检索、自我完善和自我验证三个使用上下文学习技术的模块确保 AI 智能体能够有效地懂得游玩情景，采集信息，并进行逻辑推理。AI 智能体的每一步动作，包括询问、回应、投票等，都是基于其脚色脚本和以往的交互记录由 LLM 自动产生的。

大模型在搀杂推理任务上潜力如何？多智能体互动框架ThinkThrice玩转脚本杀

ThinkThrice (三思) 框架。

评价方法：新的评价标准

研讨者安排了事实性题目回答和推理性题目回答两项任务来评价 AI 智能体的表现。事实性题目旨在测试 AI 智能体在游玩过程中采集的信息量，而推理性题目则评价 AI 使用这些信息进行推理的威力。其中推理性题目不仅需要考察 AI 智能体对特定题目的答案，还要评价其背后的推理过程是否合理。

大模型在搀杂推理任务上潜力如何？多智能体互动框架ThinkThrice玩转脚本杀

表 3：事实性题目示例。

大模型在搀杂推理任务上潜力如何？多智能体互动框架ThinkThrice玩转脚本杀

表 4：推理性题目示例。

实验结果：AI 智能体的侦察威力评价

实验结果表明，与基线模型相比，引入记忆检索、自我完善和自我验证模块的 AI 智能体在回答关于其他脚色的事实性题目时，准确率得到了显著提升。这证明了信息交流在懂得游玩中其他脚色的行为和动机方面至关重要。此外，AI 智能体信息采集威力的增强，也显著提高了其在推懂得案和识别凶手方面的表现。这表明 AI 智能体通过采集充足的信息和进行有效的推理，能够更准确地确定凶手身份。

大模型在搀杂推理任务上潜力如何？多智能体互动框架ThinkThrice玩转脚本杀

表 5：AI 智能体回答关于自己扮演脚色的事实性题目 (Own Q) 和其他脚色的事实性题目 (Other’s Q) 的准确率。

大模型在搀杂推理任务上潜力如何？多智能体互动框架ThinkThrice玩转脚本杀

AI 智能体使用 GPT-3.5 和 GPT-4 时的推理准确率。

大模型在搀杂推理任务上潜力如何？多智能体互动框架ThinkThrice玩转脚本杀

AI 智能体的凶手识别准确率和平民玩家胜率。

结语

该研讨通过将大型语言模型（LLM）智能体引入侦察脚色扮演游玩 “脚本杀”，探索了 LLM 智能体在搀杂叙事环境中的应用潜力，为观察和评价 LLM 智能体的行为及威力提供了新的视角和方法，并为社区深入懂得大型语言模型的威力开辟了新途径。通过实证研讨，该团队证明了其安排的多智能体互动框架和上下文学习模块在信息采集、凶手识别和逻辑推理威力方面，相较于基线模型有了显著提升。这一发现预示着 LLM 在搀杂推理任务中应用的广阔前景。预计在不远的将来，AI 将能够与人类携手解决搀杂场景的推理题目。