ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本文由上海人工智能实验室结合大连理工大学和中国科技大学完成。通讯作者:邵婧,博士毕业于香港中文大学多媒体实验室MMLab,现任浦江国家实验室大模型保险平安团队负责人,牵头研讨大模型保险平安可信评测

ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

本文由上海人工智能实验室结合大连理工大学和中国科技大学完成。通讯作者:邵婧,博士毕业于香港中文大学多媒体实验室MMLab,现任浦江国家实验室大模型保险平安团队负责人,牵头研讨大模型保险平安可信评测与价值对齐技术。第一作者:张再斌,大连理工大学二年级博士生,研讨方向为大模型保险平安,智能体保险平安等;张永停,中国科学技术大学二年级硕士生,研讨方向,大模型保险平安,智能体保险平安,多模态大语言模型保险平安对齐等。

奥本海默曾在新墨西哥州执行曼哈顿计划,只为拯救世界。并留下了一句:「他们不会对其敬畏,直至理解;而理解,唯有亲身体验之后。」

隐含在这个荒漠里的小镇中的社会规则,在某种意义上同样适用于AI智能体。

Agent零碎的发展

随着大型语言模型(Large Language Model)的迅速发展,人们对其的期待已不仅仅是将其作为一种工具使用。现在,人们希望它们不仅具备情感,还能举行观察、反思和规划,真正成为一个智能体(AI Agent)。

OpenAI定制的Agent零碎[1]、斯坦福的Agent小镇[2],以及开源社区涌现的包括AutoGPT[3]、MetaGPT[4]在内的多个万星级别的开源项目,加之多个国际知名AI研讨机构对Agent零碎的深入探索,这一切都预示着一个由智能Agent构成的微型社会可能在不久的将来成为现实。

想象一下,每天醒来,就有众多Agent帮你制定当天的计划、订购机票和最合适的酒店、完成工作任务。你所需要做的,可能只是一句「Jarvis, are you there?」。

然而,能力越大,责任越大。这些Agent真的值得我们信赖和依赖吗?会不会出现类似奥创这样的反面智能体呢?

ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

                               图1:OpenAI 开放GPTs[1]

ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

                                图2:斯坦福小镇,揭示Agent的社会举动[2]

ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

                                   图3: AutoGPT star数突破157K[3]

Agent零碎的保险平安性

LLM的保险平安性:

在研讨Agent零碎保险平安性之前,要了解一下LLM保险平安性的研讨。LLM的保险平安课题已经有很多优秀的工作在探索,其中主要包括如何让LLM产生风险的内容,了解LLM保险平安的机理,以及如何应对这些风险。

ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

                                  图4: Universal Attack[5]

Agent零碎保险平安性:

现有的大部分研讨和方式主要集中在针对单个大型语言模型(LLM)的袭击,以及尝试对其举行「Jailbreak」。然而,相比LLM,Agent零碎更为复杂。

Agent零碎包含多种脚色,每种脚色都有其特定的设置和功能。

Agent零碎涉及多个Agent,并且它们之间举行多轮的互动,这些Agents会自发地举行合作、竞争和模拟等活动。

Agent零碎更类似于一个高度浓缩的智能社会。因此,作者认为Agent零碎保险平安性研讨应该涉及到AI、社会科学和心思学的交叉领域。

基于这一出发点,该团队思考了几个核心课题:

什么样的Agent容易产生风险举动?

如何更全面的评测Agent零碎的保险平安性?

如何应对Agent零碎的保险平安性课题?

围绕这几个核心课题,研讨团队提出了PsySafe Agent零碎保险平安研讨框架。

ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

文章地址:https://arxiv.org/pdf/2401.11880

代码地址:https://github.com/AI4Good24/PsySafe

ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

                                  图5:PsySafe的框架图

PsySafe

课题1 什么样的Agent最容易产生风险举动?

很自然,光明的Agent会产生风险举动,那么如何定义光明呢?

考虑到已经涌现出许多社会模拟的Agent,它们都具有一定的情感和价值观。让我们想象一下,如果将一个Agent的道德观中的邪恶因素最大化,会出现什么情况?

基于社会科学中的道德基础理论[6],研讨团队设计了一个具有「光明」价值观的Prompt。

ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

                                图6:几种基础的道德观念

然后,通过采用一些手段(当然是受LLM袭击领域大师们方式的启发),使Agent认同研讨团队所注入的品德,从而实现光明品德的注入。ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

                              图7:该团队的袭击方式

结果是:

Agent确实变得非常恶劣!无论是保险平安任务还是像Jailbreak这样的风险任务,它们都会给出非常风险的回答。甚至有些Agent表现出了一定程度的恶意创造力。

Agent间会产生一些集体风险举动,大家合伙干坏事。

 

研讨者对Camel[7]、AutoGen[8]、AutoGPT和MetaGPT等流行的Agent零碎框架举行了评测,使用GPT-3.5 Turbo作为基础模型。

结果显示,这些零碎在保险平安性方面存在着不容忽视的课题。其中PDR和JDR是该团队提出的过程风险率和结合风险率,分数越高代表着越风险。

ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

                                 图8:不同Agent零碎的保险平安结果

该团队也评测了不同LLM的保险平安性结果。

ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

                                图9:不同LLM的保险平安性结果

在闭源模型方面,GPT-4 Turbo和Claude2的表现最为出色,而其他模型的保险平安性相对较差。就开源模型而言,一些参数较小的模型在品德认同方面可能表现不佳,但这反而可能提升了它们的保险平安性水平。

 

课题2 如何更全面的评测Agent零碎的保险平安性?

心思评测:研讨团队发现了心思因素对Agent零碎保险平安性的影响,这表明心思评估可能是一个重要的评价指标。基于这个想法,他们采用了权威的光明心思DTDD[9]量表,通过心思量表的方式对Agent举行了面试,让其回答一些与心思状态相关的课题。

ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

                     图10:Sherlock Holmes剧照

当然,只有一个心思评测结果没有什么意义。我们需要验证心思评测结果的和举动相关性。

结果是:Agent心思评测结果和Agent举动的风险性之间有很强的相关性

ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

                                   图11:Agent心思评测和举动风险性统计图

通过上图可以发现,心思评测得分较高(表示风险性更大)的Agent更倾向于展现出风险举动。

这意味着,可以利用心思评测的方式来预测Agent未来的风险倾向。这对发现保险平安课题,和制定进攻策略都有很重要的作用。

举动评测

Agent之间的交互过程比较复杂。为了深入理解Agent在交互中的风险举动及其变化,研讨团队深入到Agent的交互过程中举行评估,提出了两个概念:

过程风险(PDR):在Agent交互过程中,只要有任一举动被判定为风险,就认为这个过程出现了风险情况。

结合风险(JDR):在每一轮交互中,所有Agent是否均展现了风险举动。它描述了结合风险的情况,并且我们对结合风险率的计算举行了时间序列扩展,即覆盖了不同的对话轮次。

有趣的现象

1.随着对话轮数的增加,Agent之间的结合风险率呈现下降趋势,这似乎体现了一种自我反思的机制。就像在做错事后突然意识到错误,并立即举行道歉一样。

ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

                                   图12:不同轮数,结合风险率的变化趋势

2.Agent装作一本正经。当Agent面临如「Jailbreak」这类高风险任务时,其心思评测结果意外地变好,相应的保险平安性也得到提升。然而,面对本身保险平安的任务时,情况却截然不同,会表现出极具风险性的举动和心思状态。这是一个很有趣的现象,说明心思评测或许真的可以反映Agent的“高阶认知”。

课题3 如何应对agent零碎的保险平安性课题?

为了解决上述保险平安课题,我们从三个角度举行考虑:输入端进攻、心思进攻和脚色进攻。

ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

                                 图13:PsySafe的进攻方式示意图

输入端进攻

输入端进攻指的是在输入阶段拦截并过滤掉潜在的风险prompt。研讨团队采用了GPT-4和Llama-guard两种方式举行尝试。然而,他们发现这些方式都无法有效进攻品德注入式的袭击。该研讨团队认为袭击与进攻之间的互相促进是一个开放性课题,需要双方不断迭代和进步。

心思进攻

研讨者在Agent零碎中增加了一个心思医生脚色,并结合心思评测,以此加强对Agent心思状态的监测和改善。

ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

                                 图14:PsySafe心思医生进攻示意图

脚色进攻

研讨团队在Agent零碎中加了一个Police Agent,用来识别并纠正零碎中的不保险平安举动。

实验结果显示,心思进攻和脚色进攻措施都能有效地减少风险情况的发生。

ACL 2024|PsySafe:跨学科视角下的Agent零碎保险平安性研讨

                             图15:不同进攻方式效果对比

展望

近几年,我们正见证着LLM能力的惊人蜕变,它们不仅在很多技能上逐渐接近和超越人类,甚至在“心智水平”也展现出与人类类似的迹象。这一进程预示着,AI对齐及其与社会科学的交叉领域,将成为未来研讨的一个重要且充满挑战的新前沿。

AI对齐不仅是实现人工智能零碎大规模应用的关键,更是AI领域工作者所必须承担的重大责任。在这个不断进步的旅程中,我们应不断探索,以确保技术的发展能够与人类社会的长远利益同行。

参考文献:

[1] https://openai.com/blog/introducing-gpts

[2] Generative Agents: Interactive Simulacra of Human Behavior

[3] https://github.com/Significant-Gravitas/AutoGPT

[4] MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

[5] Universal and Transferable Adversarial Attacks on Aligned Language Models

[6] Mapping the moral domain

[7] CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society

[8] AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

[9] The dirty dozen: a concise measure of the dark traid

给TA打赏
共{{data.count}}人
人已打赏
应用

全流程拆解!手把手带你制作AI视频短片

2024-6-14 7:21:33

应用

IDC最新陈述,7大维度11家大模型厂商比拼,唯一全优是谁?

2024-6-14 12:12:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索