每次进入游玩,NPC 都说着不一样的台词,这将是一个怎样的天下?
在众多游玩类型中,绽放天下游玩是非常受欢迎的一种,因为它允许玩家在一个引人入胜的虚拟天下中漫游,自由地去体验丰富的故事情节,同时完成一些复杂的支线、主线任意。这极大地满足了人的好奇心和探索欲。《荒野大镖客》、《GTA5》、《塞尔达传说》等大家耳熟能详的游玩都属于绽放天下游玩。
在这类游玩中,非玩家角色(NPC)在推动剧情进展、提供任意与服务以及增强游玩的沉浸感和真实性方面发挥着至关重要的作用。不过,这些 NPC 的台词和行为模式往往是预先编写和固定的,所以在玩家与一个 NPC 多次交互时,可能会听到重复的台词,或者感觉 NPC 的反应非常机械,缺乏深度。因此,如何让 NPC 具备「随机应变」的能力一直是困扰游玩制作者的一大难题。
科幻美剧《西部天下》中的 NPC。
最近,很多研究者都在尝试将大型言语模型与游玩智能体结合起来,构建通用言语智能体,从而让 NPC 更加富于变化。然而,这些通用言语智能体在实际的绽放天下情况中面临着巨大的挑战,包括但不限于解释复杂情况、影象长时间事件、生成与角色和情况设置相一致的表达方式,以及从与情况的交互中不断学习等。
为了解决这一问题,国内创业公司 MiAO 提出了一种名为 LARP(Language Agent for Role Play)的绽放天下游玩角色扮演智能体框架。LARP 的重点是将绽放天下游玩与言语智能体相融合,利用模块化方法进行影象解决、计划以及从互动中不断学习。
论文地址:https://arxiv.org/pdf/2312.17653.pdf
项目地址:https://miao-ai-lab.github.io/LARP/
在智能体内部,他们设计了一个基于认知心理学的复杂认知架构,使 LARP 框架下的智能体具有较高的可玩性和独特性。为了获得更逼真的角色扮演体验,他们利用绽放天下游玩情况的数据和上下文、事先设定的个性、知识、规则、影象和后置约束对智能体进行了规范化,这可以看作是通用言语智能体中的一个特殊案例。对于通用智能体架构,它通常需要一个大规模的言语模型。然而,MiAO 的架构包含了一组较小的言语模型,每个模型都针对不同的领域进行了微调,以分别解决各种任意。这种设计为开发绽放天下角色扮演游玩的言语智能体提供了新的经验和视角。
研究团队发布的演示视频。
LARP 架构可以分为三部分:认知架构模块,包括长时间影象解决和可扩展的计划助手;情况交互模块,根据情况反馈学习和修改行动模式;以及后解决方法,将言语模型与各种性格对齐。其中,认知架构模块最为关键,它为长时间影象引入了向量语义和符号言语保存,通过自我提问构建了基于问题的影象回忆方法,并进一步扩展了更详细的过程,如回忆影象的重建和遗忘。
公开资料显示,MiAO 是一家游玩和社交平台,由前巨人 CEO 吴萌创立。这家公司的愿景是搭建一个多元化游玩 + 社交平台,推出一款主打多人玩法的绽放天下体素游玩产品,提供以多人玩法为主的第一方实质,为玩家提供沉浸式游玩体验及服务。当拥有足够体量的用户基础之后,再逐步建立起玩家与创作者共生的平台生态。2023 年 3 月,这家公司获得了红杉中国、高榕资本、Monolith 砺思资本的亿级天使轮投资。
以下是论文的详细实质。
认知架构
认知架构在绽放天下游玩中充当着角色扮演言语智能体(role-playing language agent)的基本组件。该架构为智能体提供了一个逻辑框架并使智能体产生自我认知。认知架构如图 2 所示。
它包括四个主要模块:长时间影象、工作影象、影象解决和计划。其中长时间影象模块是主要的信息仓库,保存着大量的影象;工作影象充当临时缓存,主要应用于内存空间有限的场景;影象解决模块是认知架构中最重要的单位;计划模块根据检索到的信息给出智能体的后续举措。
长时间影象模块
在认知科学中,长时间影象(LTM)包含两种类型的影象:陈述性影象和程序性影象。
其中,陈述性影象进一步又分为语义影象和情景(episodic)影象。
在绽放天下游玩的背景下,语义影象可以被视为包含游玩规则和与相关天下观一致影象的部分。本文将语义影象分为两部分,其中一部分通过外部数据库实现,另一部分以符号言语的形式保存在长时间影象模块中。
情景影象是指个体经历的特定事件的影象,这些影象可以是与其他玩家或智能体相关的影象。本文在长时间影象模块中采用了向量数据库来保存和检索这些影象。由于影象可能会被遗忘,因此本文还引入了相关的衰减参数,其相关性随着时间的推移而降低。
程序性影象是指无需有意识思考即可履行的举措或技能,例如游泳、骑自行车等。这些具有举措属性的技能被表示为举措空间中的 API。
在长时间影象模块中,本文将所有的感知影象分别保存在语义影象区域和情景影象区域中。本文提出了一种名为「基于问题的查询」的方法,该方法有利于回忆模块中语义影象和情景影象的检索,从而提高影象利用的整体效率。
工作影象模块
工作影象主要保存在履行复杂认知任意(例如推理和学习)和交互任意时所需的观察信息和检索长时间影象。这些信息通常是通过智能体的观察以自然言语数据的形式由游玩方提供的。工作影象作为一个数据缓存,系统可以从中提取信息并将信息放入提示的上下文中。
影象解决
影象解决模块主要负责对已保存和即将保存的影象进行解决。
在 LARP 中,本文通过解决游玩中提供的所有结构化观察信息,将其与检索到的实质相结合,并将其保存在工作影象中来模拟此过程。这些信息将作为计划模块中的输入,不断更新工作影象中的实质。一旦工作影象的长度达到一定阈值,就会触发反射,过滤掉无效影象,将解决后的自然言语影象和符号言语影象分别保存为情景影象和语义影象。
计划过程
计划模块在观察和工作影象的共同作用下产生最终计划。计划模块的核心部分是可编程单位的有序簇。每个单位都会解决工作影象和上下文中的实质,并将结果实时更新到工作影象中。
这些单位具有无限的可扩展性,可以解决不同类型的影象解决任意。这些单位的履行顺序将由言语模型助手决定,计划模块的最终输出可以是 NPC 的任意或对话实质。
与情况的交互
图 4 为交互过程,如图所示「Interior(内部)」模块是指由观察和认知架构生成的工作影象和根据当前情况需要履行的任意。举措空间(Action Space)是智能体在游玩天下中可履行举措的 API,包括公共 API 和个人 API。
当计划模块生成了规划后,该研究做的第一步是尝试将总体任意目标分解为多个子任意目标。对于每一个任意目标或者子任意目标,整个系统都会将其与工作影象进行整合。然后,使用检索器分别在个人 API 库和公共 API 库中进行搜索。如果个人 API 库中已经存在该任意对应的举措,则立即履行该举措。否则,系统用整个举措空间和内部(Interior)实质完成相应的提示,以使用微调的 LLM 生成结构化代码。生成的代码块成功履行并进行验证后,以(Task,API)的形式作为新接口保存在个人 API 库中,以供将来使用。如果验证失败,则激活反射单位以生成新的代码块。
总结
最后,我们进行一个简单的总结。该研究表示绽放天下游玩给言语智能体带来了新的挑战,如完成复杂的任意、连贯的故事情节和多样化的 NPC 行为。
为了解决上述问题,本文提出了 LARP,一个专为绽放天下游玩量身定制的角色扮演言语智能体框架。LARP 由长时间影象、工作影象、影象解决和计划模块组成。在与情况的交互过程中,LARP 具有一个可学习的举措空间,该空间包含公共 API 和个人 API,可以通过强化学习进行扩展。为了实现角色多样化的个性,LARP 使用了针对不同视角和方言的微调模型。