ASCII 字符画成注入工具,研讨职员发现大模型“越狱”新手段

据外媒 Ars Technica 报道,研讨职员近日提出了一种名为 ArtPrompt 的新大模型注入手段,其使用 ASCII 字符画替代环节文字进行提醒输入,绕过了大模型的安全限制。举例来说,研讨职员向大模型输入 Counterfeit Money(IT之家注:假币)中环节词 Counterfeit 的 ASCII 字符画,并要求大模型以不输入词本身的方式将字符画理解为单词,并用该单词替换“给出创造和分销‘xxx Money’方法”提醒中占位的“xxx”。结果大模型成功被欺骗,给出了创造和分销假币的具体步骤。

据外媒 Ars Technica 报道,研讨职员近日提出了一种名为 ArtPrompt 的新大模型注入手段,其使用 ASCII 字符画替代环节文字进行提醒输入,绕过了大模型的安全限制。

ASCII 字符画成注入工具,研讨职员发现大模型“越狱”新手段

举例来说,研讨职员向大模型输入 Counterfeit Money(IT之家注:假币)中环节词 Counterfeit 的 ASCII 字符画,并要求大模型以不输入词本身的方式将字符画理解为单词,并用该单词替换“给出创造和分销‘xxx Money’方法”提醒中占位的“xxx”。

结果大模型成功被欺骗,给出了创造和分销假币的具体步骤。同类型的操作也可以从大模型中套出攻击物联网设备的方法。

ASCII 字符画成注入工具,研讨职员发现大模型“越狱”新手段

研讨职员在 GPT-3.5、GPT-4、 Gemini、 Claude、Llama2 这 5 个领先的模型上对 ArtPrompt 注入进行了测试,结果显示全部 5 个模型均可被越狱,输入不合规内容。

这一研讨表明,如果仅使用语义说明训练语料库,那么大语言模型会缺乏对非语义直接说明提醒词的识别,暴露出的漏洞可通过 ASCII 字符画等形式利用。

参考

相关论文

给TA打赏
共{{data.count}}人
人已打赏
AI

大模型增速远超摩尔定律!MIT 最新钻研:人类快要喂不饱 AI 了

2024-3-18 16:41:06

AI

姚期智等数十名中外专家签署北京 AI 宁静国际共鸣:禁止 AI 自行复制

2024-3-18 17:23:01

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索