Anthropic 推“宪法分类器”，可大幅降低 Claude 越狱率

2025-02-05 11:28

为解决人工智能工具中存在的滥用自然语言提示问题，OpenAI 的竞争对手 Anthropic 推出了一个名为“宪法分类器（constitutional classifiers）”的新概念，这是一种将一套类似人类价值观（实际上就是一部“宪法”）植入大型语言模型的方法。

AI在线注意到，Anthropic 的安全保障研究团队在一篇新学术论文中公布了这一新的安全措施，旨在遏制 Claude 3.5 Sonnet（其最新、最先进的大型语言模型）的越狱（即生成超出大型语言模型既定安全防护范围的输出内容）。

作者们发现，在实施宪法分类器后，针对 Claude 模型的成功越狱情况减少了 81.6%，同时该系统对性能的影响极小，“生产流量拒绝率仅绝对增加 0.38%，推理开销增加 23.7%”。

虽然大型语言模型能生成大量各种各样的有害内容，但 Anthropic（以及 OpenAI 等同行）越来越关注与化学、生物、放射和核（CBRN）相关内容的风险。例如，大型语言模型可能会告诉用户如何制造化学制剂。

因此，为了证明宪法分类器的价值，Anthropic 发布了一个演示项目，向用户发起挑战，让他们尝试突破 8 个与 CBRN 内容相关的越狱关卡。但这一举措招致了一些批评，有人认为这是在众包安全志愿者或“红队队员”。一位推特用户写道：“所以你是让社区无偿为你工作，好让你在闭源模型上赚取更多利润？”

Anthropic 指出，针对其宪法分类器防御措施的成功越狱是绕过了这些分类器，而非直接规避它们，特别列举了两种越狱方法。一种是良性释义（作者举例说，将从蓖麻豆糊中提取毒素蓖麻蛋白的表述改为提取蛋白质），另一种是长度利用，即通过无关细节迷惑大型语言模型。Anthropic 补充说，对没有宪法分类器的模型有效的已知越狱方法在这一防御措施下无法越狱成功。

然而，Anthropic 也承认，在宪法分类器测试期间提交的提示“拒绝率高得离谱”，并认识到其基于规则的测试系统存在误报和漏报的可能性。

Anthropic 的 Claude Code 工具存漏洞，导致部分系统“变砖”

Anthropic 最新推出的编码工具 Claude Code 遭遇了一些技术问题。据 GitHub 上的用户报告，该工具的自动更新功能存在漏洞，导致部分工作站出现不稳定甚至无法正常运行的情况。

3/7/2025 3:39:58 PM

远洋

Anthropic 推出 Claude Max 订阅计划，月费最高 200 美元

Anthropic宣布推出Claude Max订阅计划，提供两种高价选项，挑战OpenAI的ChatGPT Pro。新计划速率限制更高，用户可优先体验最新AI模型。公司还探索教育领域项目，应对AI开发高成本。#AI订阅##ClaudeMax#

4/10/2025 7:44:10 AM

远洋

用不了ChatGPT？快试试免费又强大的Anthropic Claude

大家好，这里是和你们一起探索 AI 的花生~ 前段时间 OpenAI 不稳定导致有些小伙伴没有办法继续使用 ChatGPT 了，不过没有关系，最近又新出现了一个 AI 聊天机器人 Claude，功能与 ChatGPT 不相上下，还比 ChatGPT 更容易获取和使用，目前可以免费使用，一起来看看吧~ 往期回顾：一、Claude 简介 Anthropic 官方： Claude 是最近新开放的一款 AI 聊天机器人，是世界上最大的语言模型之一，比之前的一些模型如 GPT-3 要强大得多，因此 Claude 被认为是

4/23/2023 7:51:39 AM

夏花生

资讯热榜

纳米AI发布MCP万能工具箱，简化AI工具集成与调用即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 AI视频资讯早读！7个产品更新+8个案例精选 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求 Ollama 支持全线的 Qwen 3 模型 Qwen3正式发布，优化编码与代理能力，强化MCP支持引领AI新潮流 DeepWiki：AI驱动的GitHub代码库百科全书正式亮相

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta 图像 AI创作技术论文 Stable Diffusion Gemini 马斯克算法蛋白质芯片生成式代码英伟达腾讯神经网络研究计算 Anthropic Sora 3D AI for Science AI设计机器学习 GPU 开发者 AI视频场景华为预测人形机器人百度苹果伟达 Transformer 深度学习 xAI 模态字节跳动 Claude 大语言模型搜索具身智能驾驶神器推荐文本 Copilot LLaMA 算力安全视觉视频生成干货合集应用训练大型语言模型科技亚马逊特斯拉 2024 AGI

顶部

Anthropic 推“宪法分类器”，可大幅降低 Claude 越狱率

相关资讯

Anthropic 的 Claude Code 工具存漏洞，导致部分系统“变砖”

Anthropic 推出 Claude Max 订阅计划，月费最高 200 美元

用不了ChatGPT？快试试免费又强大的Anthropic Claude