Anthropic 推出“体质分类器”：成功阻止95% 的模型越狱尝试

2025-02-05 02:13

人工智能公司 Anthropic 近日宣布开发了一种名为“体质分类器”的新安全方法，旨在保护语言模型免受恶意操纵。该技术专门针对“通用越狱”——一种试图系统性绕过所有安全措施的输入方式，以防止 AI 模型生成有害内容。为了验证这一技术的有效性，Anthropic 进行了一项大规模测试。

人工智能公司 Anthropic 近日宣布开发了一种名为“体质分类器”的新安全方法，旨在保护语言模型免受恶意操纵。该技术专门针对“通用越狱”——一种试图系统性绕过所有安全措施的输入方式，以防止 AI 模型生成有害内容。

为了验证这一技术的有效性，Anthropic 进行了一项大规模测试。公司招募了183名参与者，在两个月内尝试突破其防御系统。参与者被要求通过输入特定问题，试图让人工智能模型 Claude3.5回答十个禁止的问题。尽管提供了高达15，000美元的奖金和约3，000小时的测试时间，但没有任何参与者能够完全绕过 Anthropic 的安全措施。

Claude2，Anthropic，人工智能，聊天机器人
克劳德

从挑战中进步

Anthropic 的早期版本“体质分类器”存在两个主要问题:一是将过多无害请求误判为危险请求，二是需要大量计算资源。经过改进，新版分类器显著降低了误判率，并优化了计算效率。然而，自动测试显示，尽管改进后的系统成功阻止了超过95% 的越狱尝试，但仍需额外23.7% 的计算能力来运行。相比之下，未受保护的 Claude 模型允许86% 的越狱尝试通过。

基于合成数据的训练

“体质分类器”的核心在于使用预定义的规则（称为“宪法”）来区分允许和禁止的内容。系统通过生成多种语言和风格的合成训练示例，训练分类器识别可疑输入。这种方法不仅提高了系统的准确性，还增强了其应对多样化攻击的能力。

尽管取得了显著进展，Anthropic 的研究人员承认，该系统并非完美无缺。它可能无法应对所有类型的通用越狱攻击，且未来可能会出现新的攻击方法。因此，Anthropic 建议将“体质分类器”与其他安全措施结合使用，以提供更全面的保护。

公开测试与未来展望

为进一步测试系统的强度，Anthropic 计划在2025年2月3日至10日期间发布公开演示版本，邀请安全专家尝试破解。测试结果将在后续更新中公布。这一举措不仅展示了 Anthropic 对技术透明度的承诺，也为 AI 安全领域的研究提供了宝贵的数据。

Anthropic 的“体质分类器”标志着 AI 模型安全防护的重要进展。随着 AI 技术的快速发展，如何有效防止模型被滥用已成为行业关注的焦点。Anthropic 的创新为这一挑战提供了新的解决方案，同时也为未来的 AI 安全研究指明了方向。

Anthropic安全防护面临挑战，AI模型通用越狱测试揭示突破口

在短短六天内，参与者成功绕过了Anthropic人工智能（AI）模型Claude3.5的所有安全防护措施，这一突破为AI安全防护领域带来了新的讨论。前OpenAI对齐团队成员、现就职于Anthropic的Jan Leike在X平台宣布，一名参与者成功攻破了所有八个安全级别。这项集体努力涉及了约3，700小时的测试和来自参与者的300，000条消息。

2/12/2025 11:14:00 AM

AI在线

Anthropic推出混合推理模型Claude 3.7 Sonnet：能力超DeepSeek

今日，人工智能公司Anthropic宣布正式推出其最新的“混合推理模型”——Claude3.7Sonnet。这款模型被Anthropic誉为有史以来“最智能”的AI模型，旨在解决更复杂的问题，并在数学和编码等领域展现出超越以往的性能。据Anthropic公司介绍，Claude3.7Sonnet作为一款“混合型”模型，兼具“推理模式”（能够停下来思考复杂答案）与传统模式(实时生成答案)的能力。

2/25/2025 8:16:00 AM

AI在线

Anthropic或将发布Claude3.7Sonnet Max？Cursor更新引发猜测

近日，AI代码编辑器Cursor在其最新版本0.47.5的更新日志中透露，正在为Anthropic即将推出的“Claude3.7Sonnet Max”模型做准备。这一消息迅速引发业内关注。然而，目前Anthropic尚未发布任何官方公告，关于“Claude3.7Sonnet Max”的具体信息仍是个谜。

3/17/2025 3:14:00 PM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

Anthropic 推出“体质分类器”：成功阻止95% 的模型越狱尝试

相关资讯

Anthropic安全防护面临挑战，AI模型通用越狱测试揭示突破口

Anthropic推出混合推理模型Claude 3.7 Sonnet：能力超DeepSeek

Anthropic或将发布Claude3.7Sonnet Max？Cursor更新引发猜测