通用越狱

Anthropic 推出“体质分类器”：成功阻止95% 的模型越狱尝试

Anthropic 推出“体质分类器”：成功阻止95% 的模型越狱尝试

人工智能公司 Anthropic 近日宣布开发了一种名为“体质分类器”的新安全方法，旨在保护语言模型免受恶意操纵。该技术专门针对“通用越狱”——一种试图系统性绕过所有安全措施的输入方式，以防止 AI 模型生成有害内容。为了验证这一技术的有效性，Anthropic 进行了一项大规模测试。

1

资讯热榜

DeepSeek-V3-0324 悄然发布：技术圈沸腾的低调升级 Google AI Studio 现可通过 ai.dev 域名直接访问开源实时识别模型RF-DETR：实时识别画面中的物体，开源可商用深度拆解！这可能是全网最详细的AI视频创作教程 AI编程实战！零基础小白如何用Cursor独立开发网站？可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评 DeepSeek 官方详解 V3 模型小版本升级：各项能力全面进阶 OpenAI破大防，拒绝率从98%骤降2%！陈怡然团队提出全新思维链劫持攻击

标签云