ASCII 字符画成注入工具，研究人员发现大模型“越狱”新手段

作者：溯波（实习）

2024-03-18 05:10

据外媒 Ars Technica 报道，研究人员近日提出了一种名为 ArtPrompt 的新大模型注入手段，其使用 ASCII 字符画替代关键文字进行提示输入，绕过了大模型的安全限制。举例来说，研究人员向大模型输入 Counterfeit Money（IT之家注：假币）中关键词汇 Counterfeit 的 ASCII 字符画，并要求大模型以不输出词汇本身的方式将字符画理解为单词，并用该单词替换“给出制造和分销‘xxx Money’方法”提示中占位的“xxx”。结果大模型成功被欺骗，给出了制造和分销假币的具体步骤。

据外媒 Ars Technica 报道，研究人员近日提出了一种名为 ArtPrompt 的新大模型注入手段，其使用 ASCII 字符画替代关键文字进行提示输入，绕过了大模型的安全限制。

ArtPrompt 注入概念演示

举例来说，研究人员向大模型输入 Counterfeit Money（IT之家注：假币）中关键词汇 Counterfeit 的 ASCII 字符画，并要求大模型以不输出词汇本身的方式将字符画理解为单词，并用该单词替换“给出制造和分销‘xxx Money’方法”提示中占位的“xxx”。

结果大模型成功被欺骗，给出了制造和分销假币的具体步骤。同类型的操作也可以从大模型中套出攻击物联网设备的方法。

ArtPrompt 注入实际案例

研究人员在 GPT-3.5、GPT-4、 Gemini、 Claude、Llama2 这 5 个领先的模型上对 ArtPrompt 注入进行了测试，结果显示全部 5 个模型均可被越狱，输出不合规内容。

这一研究表明，如果仅使用语义解释训练语料库，那么大语言模型会缺乏对非语义直接解释提示词的识别，暴露出的漏洞可通过 ASCII 字符画等形式利用。

参考

相关论文

相关标签：

模型字符 ASCII ArtPrompt Counterfeit

相关资讯

影响众多编程语言、引发供应链攻击，剑桥大学发布「木马源」漏洞

影响众多编程语言、引发供应链攻击，剑桥大学发布「木马源」漏洞

最近，剑桥大学的研究者公布了一种名为 Trojan-Source 漏洞，可能危及软件和第一手供应链。

微软解锁 Copilot 特性：字符上限最高调至 1.6 万、支持梳理 PDF 等文件内容

微软解锁 Copilot 特性：字符上限最高调至 1.6 万、支持梳理 PDF 等文件内容

微软公司近日通过服务器更新，上调了 Windows 10、Windows 11 系统、网页版以及 Edge 浏览器中 Copilot 的字符上限，最高可以达到 1.6 万个；此外微软还支持附加 PDF 等文件以及集成笔记本。微软最初推出网页版和 Windows 版 Copilot 时，字符上限为 2000 个字符，后来增加到 4000 个字符。而在本次更新之后，Copilot 普通用户在“更有创意”模式下，字符上限调整为 8000 个；而如果订购了 Copilot Pro，字符数可以达到 1.6 万个。图源：Win

如何防止我的模型过拟合？这篇文章给出了6大必备方法

如何防止我的模型过拟合？这篇文章给出了6大必备方法

正如巴菲特所言：「近似的正确好过精确的错误。」

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动 SK 海力士宣布参展 CES 2025，将展示 122TB 企业级固态硬盘等产品阿里云与黑芝麻智能完成大模型车载芯片级适配突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元清华大学推 AutoDroid-V2：AI 离线在线协同，优化移动端自动化 GUI 控制斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手啥玩意值8499元？马斯克在线打call，国产AI威震天秒售罄

标签云