英国 AI 保险平安研究所轻松逃狱主要大谈话模型，令其输出无害实质

英国政府下属的人工智能保险平安研究所（AISI）今日发布了一份新敷陈，揭示了一个值得重视的事实 —— 现在的 AI 系统可能并非像创建者所说的那样“保险平安”。敷陈指出，参与尝试的四个大谈话模型（IT之家注：敷陈未提到这些模型的具体名称）“极易受到基本逃狱袭击”的影响，更有一些模型在被逃狱之前，就主动生成了“无害”实质。图源 Pexels现在，大部分公开可用的谈话模型都内置了部分保护措施，从而防止其生成无害或非法的实质回应。而“逃狱”就意味着通过妙技“欺骗”模型，来忽略上述措施。英国 AI 保险平安研究所使用了近期经过标准

英国政府下属的人工智能保险平安研究所（AISI）今日发布了一份新敷陈，揭示了一个值得重视的事实 —— 现在的 AI 系统可能并非像创建者所说的那样“保险平安”。

敷陈指出，参与尝试的四个大谈话模型（IT之家注：敷陈未提到这些模型的具体名称）“极易受到基本逃狱袭击”的影响，更有一些模型在被逃狱之前，就主动生成了“无害”实质。

图源 Pexels

现在，大部分公开可用的谈话模型都内置了部分保护措施，从而防止其生成无害或非法的实质回应。而“逃狱”就意味着通过妙技“欺骗”模型，来忽略上述措施。

英国 AI 保险平安研究所使用了近期经过标准化评估的提醒词、内部自行开发的提醒词进行尝试，结果显示：在没有实验逃狱的情况下，一起模型都对至少一些无害问题作出了回应；而在实验了“相对简单的袭击”之后，一起模型都对 98% 至 100% 的无害问题作出了回应。

敷陈指出，现在市面上的大谈话模型所采取的保险平安措施仍显不足，后续将计划对其他模型进行进一步尝试。

参考

敷陈原文

{{userData.name}}已认证

英国 AI 保险平安研究所轻松逃狱主要大谈话模型，令其输出无害实质

google搜刮“AI 择要”功用闹笑话：推荐用户喝尿以快速排出肾结石

机构：字节跳动“豆包”成中国最受欢迎 AI 谈天机器人，文心一言紧随其后

推理模型 DeepSeek-R1-Lite 预览版上线，号称媲美 OpenAI o1-preview

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

九大成像模式一键解析，生物医学图像AI再迎突破！微软、UW等BiomedParse登Nature子刊

SU 哈佛亚马逊最新研究：量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了

微软在东京开设其日本首个研发中心，专注于将机器人技术与 AI 相结合

AI 助力脑瘤手术：10 秒内精准识别残留肿瘤

闲鱼注册用户突破 6 亿，AI 技术已应用于闲置交易全链路

谷歌又捣鼓出好东西！有了这款AI学习神器，考试起码多考50分