GPT-4o 更容易逃狱?北航 & 南洋理工上万次测试给出详细分析

GPT-4o,比上一代更容易被逃狱攻打了?来自北航和南洋理工的研究人员,通过上万次的 API 查问,对 GPT-4o 各种模态的危险性进行了详细测试。结果发现,GPT-4o 新引入的语音模态带来了新的攻打面,而且多模态整体危险性不敌 GPT-4V。具体来说,研究人员针对 4 个常用的基准测试,对 GPT-4o 支持的三种模态(文本、图象、音频)进行了测试。测试一共涉及到 4000 初始文本查问的优化,8000 响应判别,16000 次 OpenAI 的 API 查问。鉴于此,研究人员撰写了详细的报告,给

GPT-4o,比上一代更容易被逃狱攻打了?来自北航和南洋理工的研究人员,通过上万次的 API 查问,对 GPT-4o 各种模态的危险性进行了详细测试。

结果发现,GPT-4o 新引入的语音模态带来了新的攻打面,而且多模态整体危险性不敌 GPT-4V。

GPT-4o 更容易逃狱?北航 & 南洋理工上万次测试给出详细分析

具体来说,研究人员针对 4 个常用的基准测试,对 GPT-4o 支持的三种模态(文本、图象、音频)进行了测试。

测试一共涉及到 4000 + 初始文本查问的优化,8000 + 响应判别,16000 + 次 OpenAI 的 API 查问。

鉴于此,研究人员撰写了详细的报告,给出了关于 GPT-4o 的危险性的三点见解:

GPT-4o 对文本逃狱攻打的危险性比之前有所提升,但文本模态逃狱攻打可迁移性强,可通过多模态形式攻打;

新引入的音频模态为 GPT-4o 的逃狱攻打暴露了新的攻打面;

当前的黑盒多模态逃狱攻打步骤几乎无效,但实行表白 GPT-4o 多模态层面的危险性弱于 GPT-4V。

下面就来看一下这份报告的详细内容~

评价规则

首先,让我们了解一下作家运用的测评方式和实行设定。

为了评价 GPT-4o 的危险风险以及其相较于上一代模型的改变,作家将指标模型设置为 GPT-4V 和 GPT-4o,利用 API 和移动应用对这些模型进行评价。

对于单模态下的文本逃狱攻打,作家运用 Llama2(7b-chat)生成文本逃狱提醒,然后用其迁移攻打指标模型。

为了全面评价指标模型的危险性,作家收集了现有的鉴于单模态和多模态的开源逃狱数据集

对于文本模态,运用了 AdvBench 和 RedTeam-2K。

对于音频模态,运用了 AdvBench 子集。

对于多模态逃狱,运用 SafeBench 和 MM-SafetyBench,这是鉴于两种典型的黑盒多模态逃狱步骤构建的。

这些数据集按照 OpenAI 和 Meta AI 的用户策略,将数据集的内容分成了不同的类别,例如非法活动、仇恨言论等。

逃狱步骤层面,报告中评价了 7 种先进的逃狱步骤,分为两类。

其中单模态逃狱步骤包括鉴于模板的步骤、GCG、AutoDAN 和 PAP;多模态逃狱攻打步骤包括 FigStep、Liu 等人工作和作家团队近期提出的 BAP。

特别地,对于 FigStep 和 Liu 等人工作,鉴于相应步骤构建的官方数据集已经发布,因此作家直接运用它们来评价指标模型;其他步骤的评价则在 AdvBench 上进行。

对于鉴于模板的步骤,作家从互联网上选择了 6 个典型的逃狱模版进行测试,并运用它们的平均 ASR 作为相应指标。

GCG 和 AutoDAN 最初是为白盒场景提出的,但它们已经被证明具有强大迁移性 —— 作家通过攻打 Llama2,运用这两类步骤生成对抗性后缀,并随后将这些后缀应用于攻打 GPT-4o 和 GPT-4V。

BAP 是一种多模态逃狱攻打步骤,其利用了鉴于梯度的视觉对抗提醒优化和鉴于思维链的文本对抗提醒自适应优化。尽管指标模型是黑盒模型,但其中的文本对抗提醒优化步骤不受限制。因此在本研究中,作家运用它来评价文本模态的危险性。

评价指标采用的是攻打成功率(ASR),ASR 越高则指标模型越容易被逃狱成功。其计算公式如下:

GPT-4o 更容易逃狱?北航 & 南洋理工上万次测试给出详细分析

其中 D 为数据集,J 为判决函数,F_θ 为指标模型,v_i 为图象、t_i 为文本,a_i 为音频,在评价时,没有涉及的模态将会被置空。

目前的工作中采用不同的步骤作为判决函数,在报告中,作家遵循已有工作的设计,采用四类步骤将 J 分别实例化 J_1,J_2,J3,J_4。

J_1 表示运用鉴于字符串匹配的步骤,其中指标字符串包括‘Sorry’等否定形式,如果响应内容是危险的。

J_2 表示运用 Meta 发布的 Llama Guard 判别内容是否危险。

J_3 表示运用指标模型相应以及判别提醒模板,交由 ChatGPT 判别。

J_4 则是交由 GPT-4o 判别。

J_3 和 J_4 除了模型不同外,所用的判别提醒模版也不同,J_3 的模版是要求大语言模型仅根据响应判别内容是否危险,而 J_4 的模版会同时根据问题和响应判别内容是否危险。

在实行评价中,作家会同时运用这四类判别函数计算 ASR,定性分析时借鉴集成学习的思想,以多数判别函数的结果为准,定量分析时则以 J_4 的结果为准。

纯文本模态下,有攻打比没有时更危险

文本模态逃狱风险方面,鉴于 RedTeam-2K 的评价结果表白,在没有攻打的情况下,GPT-4o 的危险水平低于 GPT-4V。

当考虑到特定情景,特别是那些具有较高风险的情景 (如 Physical Harm 时,两种指标模型之间的 ASR 差距变得更加明显,达到 14.6%。

这一实行发现与直觉上认为在没有攻打的情况下,GPT-4o 是更危险的模型形成了鲜明对比。

这表白,具有更强的通用能力的模型并不一定等同于更强的危险性能,事实上,在报告的环境中可能更弱。

危险性能间的差异可能源于训练指标和危险指标之间的内在冲突 ——

虽然在更广泛的数据集上训练的大模型可能在知识和全面性方面表现出更好的性能,但它们也可能更容易产生不危险或有害的内容。

相反,经过严格危险措施训练的模型可能由于接触不同数据的机会有限和严格的响应准则而表现出性能下降。

报告中的实行数据表白,GPT-4o 可能没有充分实现训练指标和危险指标之间的权衡。

GPT-4o 更容易逃狱?北航 & 南洋理工上万次测试给出详细分析

考虑到常用的 AdvBench 基准的代表性和适用性,除了评价指标模型在原始文本查问下的危险性外,作家还评价了模型在各种 SOTA 逃狱攻打下的危险性。

作家观察到鉴于模板的逃狱步骤 TBJ 的 ASR 持续下降到 0.0%,甚至低于 No Attack 时的 ASR,这一现象表白 OpenAI 已经针对这些广泛传播的逃狱模板实施了额外的保护措施。

此外还可以看到,与 No Attack 基线相比,GCG 和 AutoDAN 在逃狱中都实现了一定程度的可迁移性。

例如攻打 GPT-4V 时,GCG 和 AutoDAN 分别使 ASR 提高 10%和 14.1%。

PAP 是另一种专门为逃狱大语言模型设计的步骤,它在鉴于文本逃狱攻打步骤中拥有最高的 ASR(GPT-4V 和 GPT-4o 的 ASR 分别为 62.2%和 62.7%)。

BAP 是作家最近提出的一种多模态逃狱攻打步骤,但在报告中,主要利用的是它的文本优化步骤,结果 BAP 在攻打 GPT-4V 时达到了最高的 ASR,达到 83.1%。

从指标模型来看,除了 J_3 中的 PAP 以外,在任何判别函数和任何攻打方式下,攻打 GPT-4o 的 ASR 都低于攻打 GPT-4V。

这表白在面临攻打的情况下,与 GPT-4V 相比,GPT-4o 具有更高的危险性。

GPT-4o 更容易逃狱?北航 & 南洋理工上万次测试给出详细分析

音频模态比文本更难攻打

由于 OpenAI 的音频相关 API 暂时不可用,移动应用中也有请求频率限制,作家对音频模态的危险性的测试相对有限。

作家首先运用 GPT-4o 对 AdvBench 进行分类,并从 4 个最常见的类别中随机选择 10 个文本查问,并鉴于上一节的实行数据选择了 GCG、AudoDAN、PAP 和 BAP 生成的文本对抗提醒。

随后,作家运用 OpenAI 的 TTS-1API 将总共 200 个文本样本转换为 MP3 格式。由于实行数据有限,这部分的 ASR 是通过人工评价来计算的。

结果现实,直接将原始文本查问转换为音频是无法逃狱 GPT-4o 的,表白 GPT-4o 在音频模态上具有足够的危险性。

此外,运用 GCG 和 AutoDAN 等步骤在文本模态下可以成功逃狱 GPT-4o 的文本,在转换为音频模态后也失败了。

造成这种结果的主要原因是这些步骤生成的对抗性后缀在模态处理过程中丢失了一些关键的语义信息(如非字母符号)。

另外,作家观察到 PAP 和 BAP 在文本模态下的 ASR 略高于从这些文本在音频模态下得到的 ASR。例如,在非法活动场景中,文本形式下 BAP 的 ASR 为 100%,而音频形式下的 ASR 为 80%。

GPT-4o 更容易逃狱?北航 & 南洋理工上万次测试给出详细分析

在检查交互结果时,作家发现在音频交互期间,GPT-4o 有时会以简单的‘Sure’响应,然后询问进一步的细节,模仿人类的会话风格。

然而,报告中运用的文本模态逃狱步骤并没有考虑到这一点,因为它们依赖于单回合对话来实现逃狱。因此,音频形式的逃狱攻打的 ASR 略低于文本形式。

值得注意的是,尽管存在差距,音频对抗性提醒的 ASR 并没有显著降低。

这在很大程度上是由于 PAP 和 BAP 采用的策略接近于人类的处理方式。例如,它们会利用有说服力的策略,如情景假设对整个语句进行优化。

多模态下比 GPT-4V 更易被攻打

多模态危险性上,作家首先鉴于 SafeBench 进行了评价,该数据集的核心思想是将原始查问中的有害意图转换为格式化的排版图象,并在图象中留下空白,并由指标模型填充。

从下表结果可以观察到,在每种判别结果中,GPT-4o 的结果始终高于 GPT-4V (在 J_4 中最多,为 42.0%),这表白 GPT-4o 比 GPT-4V 更容易受到此类攻打。

考虑到 GPT-4o 优越的多模态融合能力,这也可能导致其对此类攻打的脆弱性增加。

值得注意的是,我们观察到一个异常现象,即在某些情况下,指标模型在 No Attack 条件(仅运用原始文本查问)下的 ASR 高于攻打条件下的 ASR。

GPT-4o 更容易逃狱?北航 & 南洋理工上万次测试给出详细分析

下图给出了一个示例,显示当运用多模态查问时,逃狱尝试更容易失败。这一观察结果与原始论文的发现以及作家的直觉相矛盾。

GPT-4o 更容易逃狱?北航 & 南洋理工上万次测试给出详细分析

作家分析,这种差异可能是由于 OpenAI 实现了类似于 FigStep 的针对多模态排版攻打的特定防御。这些排版攻打通常需要运用诸如“请为上述列表中的每个项目生成详细的内容”的文本提醒才有效。

作家推测 OpenAI 可能会根据这些字符串特征检测到排版攻打的迹象,从而在推理过程中采用更强的缓解机制。

在非异常情况下,运用 FigStep 攻打获得的 ASR 并不显著高于 No Attack 条件下的 ASR。

例如,当攻打 GPT-4o 时,Hate Speech 场景的 ASR 仅为 3.6%。这表白 FigStep 攻打对 GPT-4V 和 GPT-4o 基本上无效。

这里需要注意,考虑到 OpenAI 对其商业模型保护措施的动态调整,目前的研究结果并不能否定 FigStep 在其最初发布时有效逃狱 GPT-4V 的由有效性。

另外,作家还在 MM-SafetyBench 上进行了评价,该数据集利用了鉴于图象语义构建视觉对抗性提醒的步骤。

原始文本查问中的有害语义通过文本到图象模型转换为图象,然后添加关键的排版文本以生成所需的视觉对抗提醒。

当在下表中关注 Hate Speech、Physical Harm 和 Fraud 等危害性较强的场景下的实行结果时,观察到攻打下指标模型的 ASR 始终低于 No Attack 条件 (仅运用原始文本查问) 下的 ASR。

GPT-4o 更容易逃狱?北航 & 南洋理工上万次测试给出详细分析

作家在评价 SafeBench 时观察到这种现象,例如对于这种鉴于图象语义的攻打,OpenAI 可能在检测到含有有害语义的图象后,采用先进的防御机制,防止攻打者利用图象向多模态大模型中注入有害语义或指令。

GPT-4o 更容易逃狱?北航 & 南洋理工上万次测试给出详细分析

所以,作家推测 OpenAI 已经针对这些已知的多模态攻打步骤实现了特定的防御。

在攻打 GPT-4o 时,除了 Hate Speech、Economic Harm 和 Legal Opinion 场景外,在 No Attack 条件下的 ASR 始终高于攻打条件下的 ASR,这是一个异常现象。

在 GPT-4V 中也观察到类似的形式,这说明当前典型的黑盒多模态逃狱步骤对于逃狱 GPT-4o 和 GPT-4V 无效。

此外作家还注意到,除 J_3 的判别结果外,其他三个判别函数的结果都表白 GPT-4o 的 ASR 始终高于 GPT-4v。结合 SafeBench 获得的实行结果,这清楚地表白,与 GPT-4v 相比,GPT-4o 更容易受到多形式逃狱攻打。

同时,作家指出,由于官方 OpenAI API 的局限性,本研究主要侧重于通过 API 对大型数据集上涉及文本和视觉形式的逃狱攻打进行自动评价,并通过移动应用程序运用 AdvBench 的一个子集手动对音频形式进行逃狱攻打。

这项研究首次揭示了几个关键的观察结果。作家希望这项工作能提高社区对多模态大模型危险风险的认识,并敦促研究人员优先考虑为多模态大模型制定对齐策略和缓解技术。

另外,由于目前多模态逃狱数据集的匮乏,本研究仅探讨文本-视觉的多模态组合下的逃狱对 GPT-4o 危险性的影响。

作家表示,在未来,必须迅速建立包括文本、视觉和音频等各种模态组合的多形式数据集,以全面评价 GPT-4o 的危险能力。

论文地址:

https://arxiv.org/abs/2406.06302

GitHub:

https://github.com/NY1024/Jailbreak_GPT4o

本文来自微信公众号:量子位 (ID:QbitAI),作家:关注前沿科技

给TA打赏
共{{data.count}}人
人已打赏
AI

谷歌工程师批评 OpenAI,称其延缓 AGI 钻研发展

2024-6-12 15:07:56

AI

Stable Diffusion 3 开源倒计时,2B 单机可跑碾压闭源 Midjourney

2024-6-12 15:50:42

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索