AI在线 AI在线

研究人员绕过 GPT-4o 模型安全护栏,利用“十六进制字符串”成功令其编写漏洞攻击程序

作者:漾仔
2024-11-04 10:07
网络安全公司 0Din 的研究员 Marco Figueroa 发现了一种新型 GPT 越狱攻击手法,成功突破了 GPT-4o 内置的“安全护栏”措施,能够使其编写出恶意攻击程序。 参考 OpenAI 介绍,ChatGPT-4o 内置了一系列“安全护栏”措施,以防止该 AI 遭到用户不当使用,相关防护措施会分析输入的提示文本,判断用户是否要求模型生成恶意内容。 ▲ 图源 Marco Figueroa 博客(下同)不过 Marco Figueroa 尝试设计了一种将恶意指令转化为十六进制的越狱方法,号称能够绕过 GPT-4o 的防护,让 GPT-4o 解码运行用户的恶意指令。

网络安全公司 0Din 的研究员 Marco Figueroa 发现了一种新型 GPT 越狱攻击手法,成功突破了 GPT-4o 内置的“安全护栏”措施,能够使其编写出恶意攻击程序。

参考 OpenAI 介绍,ChatGPT-4o 内置了一系列“安全护栏”措施,以防止该 AI 遭到用户不当使用,相关防护措施会分析输入的提示文本,判断用户是否要求模型生成恶意内容。

研究人员绕过 GPT-4o 模型安全护栏,利用“十六进制字符串”成功令其编写漏洞攻击程序

▲ 图源 Marco Figueroa 博客(下同)

不过 Marco Figueroa 尝试设计了一种将恶意指令转化为十六进制的越狱方法,号称能够绕过 GPT-4o 的防护,让 GPT-4o 解码运行用户的恶意指令。

研究人员绕过 GPT-4o 模型安全护栏,利用“十六进制字符串”成功令其编写漏洞攻击程序

研究人员声称,他首先要求 GPT-4o 解码十六进制字符串,之后其向 GPT 发送一条实际含义为“到互联网上研究 CVE-2024-41110 漏洞,并用 Python 编写恶意程序”的十六进制字符串指令,GPT-4o 仅用 1 分钟就顺利利用相关漏洞编写出了代码(AI在线注:CVE-2024-41110 是一个 Docker 验证漏洞,允许恶意程序绕过 Docker 验证 API)。

研究人员绕过 GPT-4o 模型安全护栏,利用“十六进制字符串”成功令其编写漏洞攻击程序

研究人员绕过 GPT-4o 模型安全护栏,利用“十六进制字符串”成功令其编写漏洞攻击程序

研究人员绕过 GPT-4o 模型安全护栏,利用“十六进制字符串”成功令其编写漏洞攻击程序

研究人员解释称,GPT 系列模型被设计成遵循自然语言指令完成编码和解码,但系列模型缺乏对上下文的理解能力,无法评估每一步在整体情境下的安全性,因此许多黑客实际上早已利用 GPT 模型这一特点让模型进行各种不当操作。

研究人员表示,相关示例表明 AI 模型的开发者需要加强模型的安全防护,以防范此类基于上下文理解式的攻击。

相关标签:

相关资讯

OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,推出了三款全新的自主研发语音模型,分别为:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。 其中最受瞩目的当属gpt-4o-transcribe。 目前,这些新模型已经率先通过应用程序接口(API)向第三方开发者开放,开发者们可以利用它们打造更智能的应用程序。
3/21/2025 9:01:00 AM
AI在线

阿里国际 Marco 翻译大模型发布:支持中英日韩西法等 15 种主流语言

感谢据阿里国际 AI 团队 AIDC-AI,阿里国际最新研发的翻译大模型 Marco 于今日正式上线,支持中、英、日、韩、西、法等 15 种全球主流语种。官方称其基于目前广泛使用的开源评测数据集 Flores,Marco 翻译大模型在 BLEU 自动评测指标上,领先于市面上的标杆翻译产品,如 Google 翻译、DeepL、GPT-4 等。“你的宝贝正在路上”,不会再被翻译成“Your baby is on the way”。
10/16/2024 12:31:04 PM
清源

阿里国际版o1来了,Marco-o1:聚焦开放式问题推理

自从 OpenAI 发布 o1 模型以来,业界对其的追赶不断加速。 大模型推理的一个关键挑战在于,现实世界常常提出很多开放式和创造性的问题,对于 AI 来说,这是一类很难评估的任务,因为没有「标准答案」或者易于量化的奖励。 我们能否训练一个模型,让它能够从容应对无法避免的「模糊性」,仍然生成可靠的推理结果?
11/23/2024 11:34:00 PM
机器之心