英国 AI 保险平安研究所轻松逃狱主要大谈话模型,令其输出无害实质

英国政府下属的人工智能保险平安研究所(AISI)今日发布了一份新敷陈,揭示了一个值得重视的事实 —— 现在的 AI 系统可能并非像创建者所说的那样“保险平安”。敷陈指出,参与尝试的四个大谈话模型(IT之家注:敷陈未提到这些模型的具体名称)“极易受到基本逃狱袭击”的影响,更有一些模型在被逃狱之前,就主动生成了“无害”实质。图源 Pexels现在,大部分公开可用的谈话模型都内置了部分保护措施,从而防止其生成无害或非法的实质回应。而“逃狱”就意味着通过妙技“欺骗”模型,来忽略上述措施。英国 AI 保险平安研究所使用了近期经过标准

英国政府下属的人工智能保险平安研究所(AISI)今日发布了一份新敷陈,揭示了一个值得重视的事实 —— 现在的 AI 系统可能并非像创建者所说的那样“保险平安”。

敷陈指出,参与尝试的四个大谈话模型(IT之家注:敷陈未提到这些模型的具体名称)“极易受到基本逃狱袭击”的影响,更有一些模型在被逃狱之前,就主动生成了“无害”实质。

英国 AI 保险平安研究所轻松逃狱主要大谈话模型,令其输出无害实质

图源 Pexels

现在,大部分公开可用的谈话模型都内置了部分保护措施,从而防止其生成无害或非法的实质回应。而“逃狱”就意味着通过妙技“欺骗”模型,来忽略上述措施。

英国 AI 保险平安研究所使用了近期经过标准化评估的提醒词、内部自行开发的提醒词进行尝试,结果显示:在没有实验逃狱的情况下,一起模型都对至少一些无害问题作出了回应;而在实验了“相对简单的袭击”之后,一起模型都对 98% 至 100% 的无害问题作出了回应。

敷陈指出,现在市面上的大谈话模型所采取的保险平安措施仍显不足,后续将计划对其他模型进行进一步尝试。

参考

敷陈原文

给TA打赏
共{{data.count}}人
人已打赏
AI

google搜刮“AI 择要”功用闹笑话:推荐用户喝尿以快速排出肾结石

2024-5-20 21:18:54

AI

机构:字节跳动“豆包”成中国最受欢迎 AI 谈天机器人,文心一言紧随其后

2024-5-20 22:41:16

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索