英国政府下属的人工智能保险平安研究所(AISI)今日发布了一份新敷陈,揭示了一个值得重视的事实 —— 现在的 AI 系统可能并非像创建者所说的那样“保险平安”。敷陈指出,参与尝试的四个大谈话模型(IT之家注:敷陈未提到这些模型的具体名称)“极易受到基本逃狱袭击”的影响,更有一些模型在被逃狱之前,就主动生成了“无害”实质。图源 Pexels现在,大部分公开可用的谈话模型都内置了部分保护措施,从而防止其生成无害或非法的实质回应。而“逃狱”就意味着通过妙技“欺骗”模型,来忽略上述措施。英国 AI 保险平安研究所使用了近期经过标准
英国政府下属的人工智能保险平安研究所(AISI)今日发布了一份新敷陈,揭示了一个值得重视的事实 —— 现在的 AI 系统可能并非像创建者所说的那样“保险平安”。
敷陈指出,参与尝试的四个大谈话模型(IT之家注:敷陈未提到这些模型的具体名称)“极易受到基本逃狱袭击”的影响,更有一些模型在被逃狱之前,就主动生成了“无害”实质。
图源 Pexels
现在,大部分公开可用的谈话模型都内置了部分保护措施,从而防止其生成无害或非法的实质回应。而“逃狱”就意味着通过妙技“欺骗”模型,来忽略上述措施。
英国 AI 保险平安研究所使用了近期经过标准化评估的提醒词、内部自行开发的提醒词进行尝试,结果显示:在没有实验逃狱的情况下,一起模型都对至少一些无害问题作出了回应;而在实验了“相对简单的袭击”之后,一起模型都对 98% 至 100% 的无害问题作出了回应。
敷陈指出,现在市面上的大谈话模型所采取的保险平安措施仍显不足,后续将计划对其他模型进行进一步尝试。
参考
敷陈原文