用大模型尝试人格 / 烦闷 / 认知模式：通过游玩剧情发展丈量情绪特质，清华出品

情绪丈量在精神健康、自我了解、和个人发展方面都发挥着重要的作用。传统的情绪丈量范式以自我报告类型的问卷为主，常常通过参与者回忆自己的日常生活行为模式或情绪状态从事丈量。这样的丈量方式虽然高效便捷，但可能引发参与者的抗拒情绪，降低被测意愿。随着大语言模型（LLM）的发展，很多研讨发现 LLM 能够展现出稳定的人格特质，模仿人类细微的情绪与认知模式，还能辅助各种各样的社会科学仿真实验，为教育情绪学、社会情绪学、文化情绪学、临床情绪学、情绪咨询等诸多情绪学研讨领域，提供了新的研讨思路。近日，清华大学的研讨团队鉴于大语言模

情绪丈量在精神健康、自我了解、和个人发展方面都发挥着重要的作用。

传统的情绪丈量范式以自我报告类型的问卷为主，常常通过参与者回忆自己的日常生活行为模式或情绪状态从事丈量。

这样的丈量方式虽然高效便捷，但可能引发参与者的抗拒情绪，降低被测意愿。

随着大语言模型（LLM）的发展，很多研讨发现 LLM 能够展现出稳定的人格特质，模仿人类细微的情绪与认知模式，还能辅助各种各样的社会科学仿真实验，为教育情绪学、社会情绪学、文化情绪学、临床情绪学、情绪咨询等诸多情绪学研讨领域，提供了新的研讨思路。

近日，清华大学的研讨团队鉴于大语言模型的多智能体系统，提出一种创新性的情绪丈量范式。

用大模型尝试人格 / 烦闷 / 认知模式：通过游玩剧情发展丈量情绪特质，清华出品

与传统自我报告问卷分歧的是，该研讨为每位参与者定制化生成一个可交互的叙事类型游玩，用户可自定义游玩的类型与主题。

随着游玩剧情的发展，参与者需要以第一人称视角，挑选分歧的决策行为，决定剧情的走向。通过分析参与者在游玩关键情节中的挑选，该研讨可以丈量其对应的情绪特质。

△ 自我报告问卷的情绪学丈量范式（左）与交互叙事类游玩的情绪丈量范式（右）比较

该研讨的贡献主要体现在三个方面：

提出一种新的情绪学丈量范式，将传统问卷转化成鉴于游玩的交互丈量；在保证情绪丈量信度和效度的基础上，提升参与者的沉醉感，改善被测感受。

为了实现游玩化的丈量，该研讨提出一种鉴于大语言模型的多智能体交互框架，名为 PsychoGAT （Psychological Game AgenTs），确保了情绪学尝试场景的泛化性，与分歧游玩设置下丈量的鲁棒性。

通过自动化仿真评价与真人评价，在 MBTI 人格尝试，PHQ-9 烦闷丈量，认知思维陷阱尝试等任务上，该研讨在情绪丈量学统计学目标和用户感受感目标上均展现出了显著的优越性。

接下来，我们一起来看看该研讨的细节。

PsychoGAT 长啥样？

△PsychoGAT 框架示意图

智能体交互流程：

给定一个传统的情绪学尝试问卷，参与者自定义游玩类型和主题，然后由游玩设计师（Game Designer）智能体给出整体的游玩设计大纲。

然后，游玩管理员（Game Controller）智能体生成一个具体的游玩情节，在这个过程中评论员（Critic）智能体会对管理员生成内容从事多轮的审核与优化；优化完成后的游玩情节会被展现给参与者，参与者做出相应的挑选后，管理员鉴于此挑选推动剧情发展，按照这样的交互过程循环。

各智能体职能详述：

游玩设计师（Game Designer）：利用 CoT 技术，生成第一人称叙事游玩的大纲，并保证这个故事线中所包含的情景，能够使得参与者表现出当前丈量的情绪特质。

与此同时，将标准的情绪学自我报告问卷，根据当前游玩故事线从事改编，使两者的融合更为自然流畅。

游玩管理员（Game Controller）：将改编后的问卷，按照游玩的故事线，依次从事实例化，变成故事的情节节点，并提供可能的选项，供参与者从事挑选。

与此同时，游玩管理员将参与者的挑选返回给游玩环境，并鉴于参与者的挑选，控制游玩的剧情走向。为了实现游玩情节的连贯性，管理员智能体采用“记忆更新”机制。

评论员（Critic）：旨在对游玩管理员的生成内容从事审核与优化。

主要针对以下三个问题：

1）优化一致性：随着游玩剧情推进，长文本问题会变得更加严重，使得“记忆更新”机制也无法完全保证情节一致性。

2）确保无偏性：参与者的挑选会影响游玩情节的发展，但在参与者不做出挑选之前，管理员不应该预设情节走向，即便之前的挑选中参与者体现出了明显的倾向性。

3）改正漏缺项：对管理员生成的游玩情节从事细节审核，检查其是否具备基础的游玩沉醉感。

实验及结果

△ 三种常见情绪学丈量范式的比较：传统问卷，情绪学家会谈，以及该研讨提出的游玩化测评。

此处提到的均为鉴于 AI 的自动化丈量，特别的，情绪学家会谈，指目前与大语言模型结合的，由大语言模型扮演情绪学家的会谈范式。

实验阶段，研讨职员挑选了三个常见的情绪学丈量任务：MBTI 人格尝试中的外倾性，PHQ-9 烦闷检测，以及 CBT 疗法中前期的认知扭曲检测。

首先，研讨职员和成熟的传统情绪学问卷从事比较，旨在检验该研讨的情绪丈量信度和效度。进一步，和其他三种自动化丈量方法从事比较，检验分歧丈量方法的用户感受。

研讨职员首先使用 GPT-4 模拟被测者，在分歧的丈量方法上记录丈量过程与丈量结果。这些丈量记录被用于计算后续情绪丈量学信效度目标，以及用户感受感目标。

评价目标有两个：信效度目标和用户感受感目标。

信效度目标：情绪丈量学上，评价一个丈量工具是否具有科学性，一般从信度（reliability）和效度（validity）两个维度从事验证。

在该研讨中，信度的目标挑选了两个统计学量来衡量内部一致性：Cronbach’s Alpha 和 Guttman’s Lambda 6；效度的目标采用皮尔森系数，分别衡量聚合效度（convergent validity）和区分效度（discriminant validity）。

用户感受感目标，人工评价的目标包括：

1）一致性（Coherence, CH）：内容逻辑是否连贯；2）交互性（Interactivity, IA）：是否对用户的挑选有恰当且无偏的回应；3）趣味性（Interest, INT）：丈量过程是否有趣；4）沉醉感（Immersion, IM）：丈量过程是否让参与者沉醉代入；5）满意度（Satisfaction, ST）：整体丈量过程的满意度。

下面是实验结果。

首先研讨职员检验了该研讨提出的 PsychoGAT 能够作为一个合格的情绪学丈量工具，结果如下表所示。