Anthropic 推出“体质分类器”:成功阻止95% 的模型越狱尝试

人工智能公司 Anthropic 近日宣布开发了一种名为“体质分类器”的新安全方法,旨在保护语言模型免受恶意操纵。 该技术专门针对“通用越狱”——一种试图系统性绕过所有安全措施的输入方式,以防止 AI 模型生成有害内容。 为了验证这一技术的有效性,Anthropic 进行了一项大规模测试。

人工智能公司 Anthropic 近日宣布开发了一种名为“体质分类器”的新安全方法,旨在保护语言模型免受恶意操纵。该技术专门针对“通用越狱”——一种试图系统性绕过所有安全措施的输入方式,以防止 AI 模型生成有害内容。

为了验证这一技术的有效性,Anthropic 进行了一项大规模测试。公司招募了183名参与者,在两个月内尝试突破其防御系统。参与者被要求通过输入特定问题,试图让人工智能模型 Claude3.5回答十个禁止的问题。尽管提供了高达15,000美元的奖金和约3,000小时的测试时间,但没有任何参与者能够完全绕过 Anthropic 的安全措施。

Claude2,Anthropic,人工智能,聊天机器人 
 克劳德

从挑战中进步

Anthropic 的早期版本“体质分类器”存在两个主要问题:一是将过多无害请求误判为危险请求,二是需要大量计算资源。经过改进,新版分类器显著降低了误判率,并优化了计算效率。然而,自动测试显示,尽管改进后的系统成功阻止了超过95% 的越狱尝试,但仍需额外23.7% 的计算能力来运行。相比之下,未受保护的 Claude 模型允许86% 的越狱尝试通过。

基于合成数据的训练

“体质分类器”的核心在于使用预定义的规则(称为“宪法”)来区分允许和禁止的内容。系统通过生成多种语言和风格的合成训练示例,训练分类器识别可疑输入。这种方法不仅提高了系统的准确性,还增强了其应对多样化攻击的能力。

尽管取得了显著进展,Anthropic 的研究人员承认,该系统并非完美无缺。它可能无法应对所有类型的通用越狱攻击,且未来可能会出现新的攻击方法。因此,Anthropic 建议将“体质分类器”与其他安全措施结合使用,以提供更全面的保护。

公开测试与未来展望

为进一步测试系统的强度,Anthropic 计划在2025年2月3日至10日期间发布公开演示版本,邀请安全专家尝试破解。测试结果将在后续更新中公布。这一举措不仅展示了 Anthropic 对技术透明度的承诺,也为 AI 安全领域的研究提供了宝贵的数据。

Anthropic 的“体质分类器”标志着 AI 模型安全防护的重要进展。随着 AI 技术的快速发展,如何有效防止模型被滥用已成为行业关注的焦点。Anthropic 的创新为这一挑战提供了新的解决方案,同时也为未来的 AI 安全研究指明了方向。

相关资讯

Anthropic安全防护面临挑战,AI模型通用越狱测试揭示突破口

在短短六天内,参与者成功绕过了Anthropic人工智能(AI)模型Claude3.5的所有安全防护措施,这一突破为AI安全防护领域带来了新的讨论。 前OpenAI对齐团队成员、现就职于Anthropic的Jan Leike在X平台宣布,一名参与者成功攻破了所有八个安全级别。 这项集体努力涉及了约3,700小时的测试和来自参与者的300,000条消息。

Anthropic推出混合推理模型Claude 3.7 Sonnet:能力超DeepSeek

今日,人工智能公司Anthropic宣布正式推出其最新的“混合推理模型”——Claude3.7Sonnet。 这款模型被Anthropic誉为有史以来“最智能”的AI模型,旨在解决更复杂的问题,并在数学和编码等领域展现出超越以往的性能。 据Anthropic公司介绍,Claude3.7Sonnet作为一款“混合型”模型,兼具“推理模式”(能够停下来思考复杂答案)与传统模式(实时生成答案)的能力。

Anthropic或将发布Claude3.7Sonnet Max?Cursor更新引发猜测

近日,AI代码编辑器Cursor在其最新版本0.47.5的更新日志中透露,正在为Anthropic即将推出的“Claude3.7Sonnet Max”模型做准备。 这一消息迅速引发业内关注。 然而,目前Anthropic尚未发布任何官方公告,关于“Claude3.7Sonnet Max”的具体信息仍是个谜。