首篇「角色扮演AI」综述!复旦等提出大模型三层人格分类框架:群体、角色、个性化 | TMLR

角色扮演AI系统体现了数字生命的理念,通过交互形式将不同角色带入现实。 这些系统模拟指定角色的能力,长期以来一直存在于人类想象中,体现了我们创造和与具有智能的人工生命互动的渴望。 近期,得益于GPT-4、LLaMA等大语言模型(LLMs)的突破性进展,基于文本的角色扮演AI(Role-Playing Language Agents,RPLAs)正在从科幻走进现实。

角色扮演AI系统体现了数字生命的理念,通过交互形式将不同角色带入现实。这些系统模拟指定角色的能力,长期以来一直存在于人类想象中,体现了我们创造和与具有智能的人工生命互动的渴望。

近期,得益于GPT-4、LLaMA等大语言模型(LLMs)的突破性进展,基于文本的角色扮演AI(Role-Playing Language Agents,RPLAs)正在从科幻走进现实。

研究表明,当前的LLMs已经能够产生令人信服的拟人效果,并可以被视为不同信念和人格的叠加态。通过对齐训练,它们能够遵循角色扮演指令,复制角色的知识储备,模仿语言和行为模式,甚至重现深层的性格特征。

来自复旦大学等机构的研究人员发表了一篇综述,提出了RPLAs的三层人格分类框架,按照个性化程度的递进,将RPLAs的人格类型分为群体人格、角色人格和个性化人格。

图片

论文链接:https://arxiv.org/abs/2404.18231

群体人格关注具有共同特征的人群,如职业、种族、性格类型等,内置于LLMs中,角色扮演主要利用LLMs中的统计特征,通过简单提示词即可激活。

角色人格则代表广为人知的具体个体,特别是现有文献中的角色,包括名人、历史人物和虚构角色,这类人格考验模型理解和运用已有角色数据的能力。

个性化人格是基于个性化用户数据构建并持续更新的数字档案,强调个人独特的经历、需求和偏好,主要用于数字分身或个人助理等应用。

值得注意的是,这三类人格并非相互独立,而是可以在RPLAs中共存。

比如说,一个扮演苏格拉底担任个人哲学导师的RPLA就同时包含了古希腊哲学家的群体人格、苏格拉底的角色人格,以及通过与用户互动发展的个性化人格。

这种多层次的人格整合,使得RPLAs能够在保持角色本真性的同时,提供更加个性化的互动体验。

图片

在技术实现层面,研究团队深入分析了RPLAs的构建方法。RPLAs通过人格数据来模拟复杂的人格,这些数据包括描述、画像、对话、历史行为记录以及书籍原文等文本材料。目前主要有两类构建方法:参数化训练和非参数化提示。

参数化训练主要包括预训练、监督微调和强化学习三个阶段。

首先,模型在包含文学作品和百科全书等大规模原始文本上进行预训练,这使其获得了大量社会群体和角色人格的基础知识。

随后,模型在角色扮演数据集上进行监督微调,增强其角色扮演能力和特定角色知识。

此外,强化学习方法可以进一步优化RPLAs在多个方面的表现,包括:与普通用户的对齐(如提高吸引力或减少有害内容)、改进社交推理能力(如在游戏或目标导向对话中的表现),以及与个别用户的对齐。

图片

非参数化提示则在上下文中提供人格数据和角色扮演指令。人格数据主要包括描述(Descriptions)和展示(Demonstrations)两部分:描述部分主要包含姓名、背景、经历、性格、语气等基本信息;示范部分则展示代表性的对话、行为、互动和偏好等。

获取这些人格数据的方法包括:在线资源收集(如从维基百科等获取知名角色信息)、自动提取(用LLM从书籍等材料中提取对话)、对话合成(用更强的LLM创建和扩展角色扮演对话数据集)以及人工标注(由标注者或角色粉丝创作高质量的角色扮演对话)。

此外,现代RPLAs还越来越多地集成记忆模块,以从大量角色特征数据或过往互动中检索信息加入到上下文中。

图片

在评估体系方面,研究团队将评估标准分为两大类:角色扮演能力评估(Role-Playing Capability)和人格还原度评估(Persona Fidelity)。

角色扮演能力评估针对RPLA的基础模型和构建框架,不考虑具体角色,主要关注拟人能力、吸引力和实用性等方面,具体包括对话能力、投入度、人格一致性、情感理解、心智理论和问题解决能力等维度。

人格还原度评估则聚焦于特定人格的RPLA是否很好地复制了目标人格的特点,包括知识、语言习惯、性格、信念和决策方式等方面。

模型评估

目前评估方法主要有四类:基于标准答案的自动评估、无标准答案的自动评估、多选题评估和人工评估。

在这些评估方法中,人工评估成本高昂,费时费力;自动评估往往基于LLM-as-a-judge,即使用LLM对RPLA的表现进行评判,这类评估方法受制于LLM的角色知识不足和多种评估偏见问题,评估效果并不理想;多选题评估的数据集构造则较为困难,同时与RPLA的真实应用场景存在差异。因此,对RPLA的精准评估仍是一个开放性问题。

在这篇综述中,研究团队对RPLAs领域的现有文献进行了系统性梳理,建立了相关方法论的分类体系。同时,作者们还全面整理了当前可用的评估基准数据集,包括其数据类型、规模、来源和评估指标等关键信息,为未来的研究工作提供了重要参考。

图片

尽管RPLAs已展现出令人振奋的发展前景,但仍面临诸多挑战。

如何构建更全面的角色数据集、如何实现更精准的评估方法、如何平衡真实性与安全性,以及如何处理持续交互中的角色演变,都是亟待解决的问题。

随着技术的进步,培育人类与智能体协同共存的社会生态将成为重要方向。这不仅将改变人机交互的方式,更将推动数字生命这一人类长期追求的实现。

作者介绍

该综述项目由复旦大学王鑫涛发起,陈江捷、王鑫涛、徐锐策划并联合课题组同学共同完成。

图片

王鑫涛,复旦计算机系博士生,重度二次元爱好者,业余cosplayer,致力于用AI研究创造更cool的二次元应用。他的研究兴趣主要集中在大语言模型、Agent、AI角色扮演等领域。

相关资讯

腾讯技术公益数字工具箱升级,助力公益上“云”用“数”

技术普惠正在提升公益的整体数字化水平。5月20日,2023年中国互联网公益峰会上,腾讯技术公益数字工具箱(以下简称数字工具箱)宣布全面升级,聚焦公益组织数字化转型中的共性需求与真实问题,上线行业数字化服务专区。该专区由多家公益SaaS企业提供服务,首批入驻14项数字工具,助力公益组织更便捷地上“云”用“数”。腾讯技术公益发起人陈妍表示,技术的参与正不断拓宽公益的边界。从前沿技术的共享共创,再到“搭台子”、“链资源”、“配资金”,腾讯希望与社会专业力量一起,由点及面地破解公益数字化难题,用技术连接善意,让公益成为广泛

架构赋能 AI:知识工程推动下的软件架构数字化

TL;DR:我们试验了将 AI 应用到基于 Protobuf 的微服务架构中,基于 ArchGuard 治理平台、Shire AI 助手、Team AI 三个工具中,构建了一套完整的 AI4SE 原型,在需求、设计、开发、测试和运维等阶段,这里是我们的思考和实践。 过去几个月里,我们在各大技术大会上频繁看到生成式 AI 的应用,很多研发组织都在尝试将其引入开发的各个环节。 然而,随着 AI 技术的深入应用,不少组织也发现了基础知识工程方面的种种挑战。

无代码生产力工具赋能数字化供应链新发展

「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI技术」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。