越狱方法

Anthropic安全防护面临挑战,AI模型通用越狱测试揭示突破口

在短短六天内,参与者成功绕过了Anthropic人工智能(AI)模型Claude3.5的所有安全防护措施,这一突破为AI安全防护领域带来了新的讨论。 前OpenAI对齐团队成员、现就职于Anthropic的Jan Leike在X平台宣布,一名参与者成功攻破了所有八个安全级别。 这项集体努力涉及了约3,700小时的测试和来自参与者的300,000条消息。
  • 1