Anthropic 推“宪法分类器”,可大幅降低 Claude 越狱率

为解决人工智能工具中存在的滥用自然语言提示问题,OpenAI 的竞争对手 Anthropic 推出了一个名为“宪法分类器(constitutional classifiers)”的新概念,这是一种将一套类似人类价值观(实际上就是一部“宪法”)植入大型语言模型的方法。

为解决人工智能工具中存在的滥用自然语言提示问题,OpenAI 的竞争对手 Anthropic 推出了一个名为“宪法分类器(constitutional classifiers)”的新概念,这是一种将一套类似人类价值观(实际上就是一部“宪法”)植入大型语言模型的方法。

Anthropic 推“宪法分类器”,可大幅降低 Claude 越狱率

AI在线注意到,Anthropic 的安全保障研究团队在一篇新学术论文中公布了这一新的安全措施,旨在遏制 Claude 3.5 Sonnet(其最新、最先进的大型语言模型)的越狱(即生成超出大型语言模型既定安全防护范围的输出内容)。

作者们发现,在实施宪法分类器后,针对 Claude 模型的成功越狱情况减少了 81.6%,同时该系统对性能的影响极小,“生产流量拒绝率仅绝对增加 0.38%,推理开销增加 23.7%”。

虽然大型语言模型能生成大量各种各样的有害内容,但 Anthropic(以及 OpenAI 等同行)越来越关注与化学、生物、放射和核(CBRN)相关内容的风险。例如,大型语言模型可能会告诉用户如何制造化学制剂。

因此,为了证明宪法分类器的价值,Anthropic 发布了一个演示项目,向用户发起挑战,让他们尝试突破 8 个与 CBRN 内容相关的越狱关卡。但这一举措招致了一些批评,有人认为这是在众包安全志愿者或“红队队员”。一位推特用户写道:“所以你是让社区无偿为你工作,好让你在闭源模型上赚取更多利润?”

Anthropic 指出,针对其宪法分类器防御措施的成功越狱是绕过了这些分类器,而非直接规避它们,特别列举了两种越狱方法。一种是良性释义(作者举例说,将从蓖麻豆糊中提取毒素蓖麻蛋白的表述改为提取蛋白质),另一种是长度利用,即通过无关细节迷惑大型语言模型。Anthropic 补充说,对没有宪法分类器的模型有效的已知越狱方法在这一防御措施下无法越狱成功。

然而,Anthropic 也承认,在宪法分类器测试期间提交的提示“拒绝率高得离谱”,并认识到其基于规则的测试系统存在误报和漏报的可能性。

相关资讯

Anthropic 的 Claude Code 工具存漏洞,导致部分系统“变砖”

Anthropic 最新推出的编码工具 Claude Code 遭遇了一些技术问题。据 GitHub 上的用户报告,该工具的自动更新功能存在漏洞,导致部分工作站出现不稳定甚至无法正常运行的情况。

用不了ChatGPT?快试试免费又强大的Anthropic Claude

大家好,这里是和你们一起探索 AI 的花生~ 前段时间 OpenAI 不稳定导致有些小伙伴没有办法继续使用 ChatGPT 了,不过没有关系,最近又新出现了一个 AI 聊天机器人 Claude,功能与 ChatGPT 不相上下,还比 ChatGPT 更容易获取和使用,目前可以免费使用,一起来看看吧~ 往期回顾:一、Claude 简介 Anthropic 官方: Claude 是最近新开放的一款 AI 聊天机器人,是世界上最大的语言模型之一,比之前的一些模型如 GPT-3 要强大得多,因此 Claude 被认为是

一夜之间,大模型像人一样操控电脑了!Claude 3.5重磅升级,抢先OpenAI

几个小时前,Claude 3.5 模型迎来了一波大更新。Anthropic 推出了升级版的 Claude 3.5 Sonnet 以及一款新模型 Claude 3.5 Haiku。其中,升级版 Claude 3.5 Sonnet 的各项能力全面胜过之前版本,其中代码能力提升显著。