Anthropic安全负责人：在超级AI「毁灭」人类之前，我们可以做这些准备

2023 年，Anthropic 发布了负责任扩展策略（Responsible Scaling Policy，RSP），这是一系列技术和组织协议，Anthropic 将采用这些协议来帮助他们管理开发功能日益强大的 AI 系统。Anthropic 认为，AI 模型一方面变得越来越强大，创造巨大的经济和社会价值，另一方面也带来了严重的风险。RSP 将专注于灾难性风险 —— 即人工智能模型直接造成大规模破坏的风险。此类风险可能来自故意滥用模型（例如恐怖分子用它来制造生物武器），也可能来自模型以违背其设计者意图的方式自主行

2023 年，Anthropic 发布了负责任扩展策略（Responsible Scaling Policy，RSP），这是一系列技术和组织协议，Anthropic 将采用这些协议来帮助他们管理开发功能日益强大的 AI 系统。

Anthropic 认为，AI 模型一方面变得越来越强大，创造巨大的经济和社会价值，另一方面也带来了严重的风险。RSP 将专注于灾难性风险 —— 即人工智能模型直接造成大规模破坏的风险。此类风险可能来自故意滥用模型（例如恐怖分子用它来制造生物武器），也可能来自模型以违背其设计者意图的方式自主行动而造成破坏。

RSP 还定义了一个称为 AI 安全等级 (ASL，AI Safety Levels) 的框架，ASL 等级越高，其安全性证明就越严格。

Anthropic安全负责人：在超级AI「毁灭」人类之前，我们可以做这些准备

ASL-1 指的是不构成重大灾难风险的系统，例如 2018 年的 LLM 或只会下棋的 AI 系统。

ASL-2 指的是显示出危险能力早期迹象的系统（例如能够给出如何制造生物武器的指令），但这些信息由于可靠性不足或无法超越搜索引擎能提供的信息而没有太多用处。包括 Claude 在内的当前 LLM 似乎是 ASL-2。

ASL-3 指的是与非 AI 基线（例如搜索引擎或教科书）相比，大大增加了灾难性滥用风险的系统或显示出低级自主能力的系统。

ASL-4 及更高版本（ASL-5+）尚未定义，因为它与现有系统相差太远，但可能会涉及灾难性滥用潜力和自主性的质的升级。

一直以来，Anthropic 在为 AI 安全做着各种努力，「要做哪些技术工作才能使非常强大的人工智能的开发顺利进行？」近日，Anthropic 安全研究部门的负责人 Sam Bowman 在一篇博客中分享了他的观点。

Anthropic安全负责人：在超级AI「毁灭」人类之前，我们可以做这些准备

对于这篇博客，AI在线做了不改变原义的翻译与整理。

在开始讨论超级人工智能的风险之前，我有一些前提需要声明：

人工智能有望达到与人类相当的水平。这个阶段，我称之为变革性人工智能（TAI）。TAI 将有能力在所有适合远程工作的职业中替代人类，包括 AI 研发。

TAI 并不是人工智能能力的上限，未来可能会出现远超人类能力的系统，它们将对世界产生深远影响。在未来十年内，我们很有可能见证 TAI 的诞生，而那时的商业、政策和文化背景预计与当前相比不会有太大变化。

TAI 一旦实现，它将极大地加速人工智能的研发进程，可能在 TAI 出现后的几个月或几年内，我们就能看到远超人类能力的系统被开发出来。

如果部署不当，超级人工智能系统可能会极具破坏性。它可能带来新风险，也可能使现有矛盾变得更加尖锐，比如武器滥用，以及破坏道路监控或网络安全等。

想要让 TAI 以及更强大的 AI 系统在现实世界中「三观正常」地正确行事，这对人工智能安全提出了更高要求。确保人工智能系统的行为与开发者的意图一致，即所谓的「对齐」，需要我们投入巨大的努力。而且随着 AI 系统的能力越来越强，这一任务也变得更加艰巨。

我将从三个阶段展开。

第一阶段：准备

此时，AI 还未进阶成 TAI，以 Anthropic 的 RSP 评级（风险敏感性评估）来看，他们处于安全等级 2（ASL-2）、ASL-3，或者可能是 ASL-4 的早期阶段。我们大部分的干预和准备工作将在这一时期进行，为尚未完全出现的高风险问题做准备。

密切关注技术前沿

AI 有多安全，很大程度上取决于我们的工作能力，而这又与我们获取前沿技术的能力紧密相关。如果我们无法获得充足的计算资源，或者在关键的预训练阶段出现重大失误，或者错过了带来变革的范式转变（哪怕是方法中的一些小改进），我们就会丧失大量做贡献的机会。而负责 AI 安全工作，需要遵守严格的规定和限制。因此，持续跟进新技术，是在此阶段的首要任务。

在初始阶段基本解决 TAI 的对齐微调问题

当 AI 系统已经智能到可以自主做研究，特别是 AI 安全研究时，我们需要寻找一种方法，让 AI 系统在帮助我们完成大量工作的同时，避免出现偏差。同时，我们必须确保 AI 的能力至少与人类专家相当，甚至更优，以确保它们能有效地协助我们。

此时，AI 并不需要完全「对齐」—— 我们可以接受一定程度的风险。因为人类不会将最关键的决策权交给 AI。同时，我们也有信心能在 AI 的对齐问题演变成全球性灾难之前，及时发现并纠正。

我们的目标是构建高效且通用的 AI 系统。构建能完全「对齐」的 AI 助理，仅供公司内部使用，并进行严格的专家监控，这种方法可行，但问题是，有过多限制或需要专家持续监督的 AI 系统很难大规模推广，这样一来，Anthropic 的业务也难以持续发展。

在我看来，解决问题的关键在于可拓展的监督，这要求我们训练出能胜任完成复杂的开放式任务的负责任的 AI 智能体。为此，需要解决的主要挑战包括：「Reward hacking」、应对人类注意力的有限性，以及识别和抵御各种欺诈行为。

确保初始形态的 TAI 安全无害

如果「对齐」问题能完美解决，我们只需下达命令，模型就能不做坏事。但这似乎不可能做到。因此，我们必须构建额外的防御措施，比如对模型输出自动进行监控、抽查、红队测试，压力测试等。

Anthropic安全负责人：在超级AI「毁灭」人类之前，我们可以做这些准备

苹果给 Apple Intelligence 下达的系统提示词：「不要产生幻觉！」

我们还特意构建了「邪恶」的未对齐版本，试图来攻击我们的安全系统，这和传统的「对齐」工作一样重要。

在长远来看，由于现有方法依赖于精确、召回率极高的内容分类器，这阶段的主要挑战是围绕对抗性鲁棒性的一系列机器学习问题。

对于有多款变体的模型家族，我们也可以综合考虑，而不是逐个击破。这种方法不仅有助于识别在初步安全规划阶段可能未被察觉的风险，还能有效防御那些在单一数据样本中不明显，却可能在多样本模式分析中暴露的系统性风险，例如潜在的滥用或错位问题。

制定合适的 RSP（负责任扩展策略）

什么是一个合格的 RSP？可以参考 LeCun 提出的测试：即使是完全不重视 AI 安全问题的敌方公司，也能放心使用。一份好的 RSP 能研究人员操作安全，一旦出现意外也能显而易见且可追责。

这个标准与其他领域的标准和类似。例如，如果一个组织希望避免受到网络上的攻击。尽管他们心存疑虑，但只要遵循 SOC 2 等通用网络安全标准，他们可以获得真正意义上的保护。

关键挑战是预测哪些风险足够重要，值得纳入其中。到目前为止，我们在威胁建模中反复出现的一个具体未解决的问题是，ASL-3 和 ASL-4 的风险在多大程度上是通过直接滥用、错位或通过双重用途研发等渠道而流动的。

ASL-4 的评估和部署案例

ASL-4 涵盖了近乎人类水平的自主性和可能灾难性的直接滥用风险，我们没有提前制定详细的标准。相反，我们将致力于整理一个安全案例 —— 一份提供系统在某些情况下是安全的证据的报告 —— 并制定安全案例需要满足的高级标准才能获得批准。许多技术安全工作最终将通过纳入这些安全案例产生影响，这些安全案例是我们在到达 ASL-4 之前的关键目标。

Anthropic 把宝押在对可解释性的深入研究，希望它能够成为 AI 系统安全的证据来源。

对于大多数部署的安全案例（即任何可能用于高风险任务的模型部署），都需要包含证据表明我们的安全措施具有很高的稳健性。也就是说，应该清楚的是，无论是模型还是它的监测系统，都不会在罕见但重要的输入上以令人惊讶的方式失败

除非可解释性出现不太可能的最佳结果，否则我们预计一个强有力的安全案例将需要依靠基于其他方法的额外新发现。这些新发现应当能让我们定量评估模型的安全性，预测它们可能带来的风险。

保护算法的秘密

如果我们的研究能力远远领先于该领域的平均水平，那么保护该研究的关键发现对于公司保持领先地位将非常重要。这与不公布模型权重有本质不同，保护起来也要困难得多：因为这些发现通常可以用几句话或几段话来表达，离职的员工很自然地就能记住。因此保护算法秘密至关重要。

为 ASL-4 和 ASL-5 建立清晰的评估

一旦达到 ASL-3 级别，安全评估就变得更难了。在 ASL-4 或 ASL-5 级别下部署预防措施，时间和金钱成本可能会空前高昂，过早启动评估和过晚启动高风险等级都会产生巨大成本。

这些评估分级应该既清晰又容易理解。如果我们发现某个模型需要 ASL-N 级别的保护，我们就得向第三方解释，为什么这个模型需要这样的保护，以及为什么其他类似的模型可能也需要。如果我们在评估中发现某些风险因素，我们需要有明确的证据来证明这些风险因素确实值得立即关注。

建立对危险能力、缓解措施和诱导的精确预测

如果我们能够准确预测哪些风险会在何时出现，以及哪些缓解措施可以在何时准备就绪，那么将能够更好地进行规划和协调。这些预测将在我们的 RSP 评估规划中发挥特别直接的作用：在 RSP 的当前设计下，我们的评估体系需要留出缓冲空间，以便在风险实际出现之前安全地触发，从而避免模型是在中等安全性下训练的，但事后又确定需要更高安全级别的情况。

这些预测也可能影响我们安全案例结构。如果我们有能够对新风险的出现做出精确预测的方法，这些预测可以帮助识别更广泛安全案例中最需要关注的特定风险因素。

构建高度自适应的研究基础设施

在 TAI 早期开发的某个阶段，我们可能会获得有关许多风险的新的具体证据。并且我们可能不会信任具有完全高带宽访问权限的模型来修改我们的基础设施和代码库，因此工程师时间仍将是我们做许多工作的约束。此时我们需要能够快速行动，并从新的自动化机会中尽可能多地受益。这可能需要在第二阶段中进行大量的组织和基础设施准备。

在 TAI 出现前，我们可能会发现许多具体的风险。但由于工作进度需要工程师配合。为了能更快地推进，在这个阶段，可能需要公司组织调整和基础设施的建设。

压力测试安全案例

我们的合规团队（负责安全）和对齐压力测试团队（负责其他技术安全措施）构成了三道防线世界观中的第二道安全防线，他们负责确保我们了解自己正在缓解的风险，并确保没有遗漏任何重要信息。在我们的宏观安全计划中，这表现为对组织准备做出的任何有关安全和保障的承载声明进行怀疑评估，并对任何重要的自由裁量决策进行二次签字。

这一职能的直接重要性并不像这里列出的许多其他职能，因为原则上我们的一线安全团队一次就能把事情做好。但在实践中，我预计这将对我们把事情做好的能力产生重大影响，并清楚地表明我们已经做到了这一点。

特别地，对齐压力测试团队的主要挑战是要足够接近我们的日常执行工作，脚踏实地，但又不成为这项工作的主要直接贡献者，以免损害他们评估这项工作的能力。

审查安全案例

董事会在长期利益信任（LTBT）和外部合作伙伴的支持下，为模型构筑了三道防线世界观中的第三道安全防线，对任何关键安全决策提出独立观点，而这些观点的提出者从未参与公司计划的执行或执行。这些人最终负责签署高风险决策，比如全新前沿模型的部署等。

我希望董事会能够在需要时找到相关外部专家，并做出合理决策。更大的挑战是做决策的过程要让其他参与者易懂并值得信赖。最显而易见的方法是当相关组织上线并拥有足够的技术实力来裁决这些决定时，遵从这些特定第三方组织关于决策的意见。如果没有这一点，很难想象 RSP 及附属结构如何通过 LeCun 提出的测试。

因此，我认为 Anthropic 无法直接解决的最紧迫安全问题便是找到一个或理想情况下几个有威望的第三方组织来胜任裁决角色。这些组织要有很高的知名度并受到广泛的信任，以至于如果前沿 AI 开发者不与它们中的任何一个合作都会被视为高度可疑。

为新兴风险因素开发明确的确凿证据演示

当前的 TAI 安全工作通常至少涉及一定程度的推测或推断，原因很简单，我们往往无法验证那些构成风险的系统。如果可以找到过渡到具体实证工作的方法，则应该这样做，既是为了巩固我们对威胁模型的信心，也为其他相关方（尤其包括决策制定者）提供更具说服力的证据

当我们看到明显的证据表明真实模型中开始出现某种风险或风险因素时，则值得进行大量额外工作将它们转化为简单、严格的演示，使风险立即清晰明了，理想情况下要让技术水平较低的受众也能理解。我们过去工作中有过这样的例子，比如「Sleeper Agents」（沉睡的智能体）和「Sycophancy」（拍马屁）。

准备暂停或重新部署

为了使 RSP 承诺在最坏的情况下（确保 TAI 系统的安全极其困难）发挥作用，我们需要能够暂停开发和部署新的前沿模型，直到制定出足够的保障措施。但是不能保证这在任何特定的时间线上都能实现，这可能会导致我们取消或大幅修改主要部署。

第二阶段：TAI（变革性人工智能）

在这个阶段，性能最好的模型开始符合 TAI 的标准，但在大多数领域还没有远远超过人类。根据 RSP，它们的定级为 ASL-4。AI 研发还没有自动化到 AI 可以自主进步的程度。

AI 开展研究的能力逐渐变强，这将为 AI 安全带来显著进步。这个阶段可能会逐渐到来，但如果 AI 的研发能力强到「逃逸速度」时，TAI 阶段可能会突然结束，直接进入第 3 阶段。

第 1 阶段的许多任务在此时还不会完成，其中许多任务在第 2 阶段中只会变得更具挑战性和紧迫性。此外，如果人工智能增强研发达到「逃逸速度」，这一阶段可能会突然结束，我们将需要为第 3 阶段做好比当时看起来更直观的准备。

开发方法来调整实质上超人的人工智能

在第 3 阶段中，我们可能会遇到一些系统，如果它们失调，就足以迅速而果断地破坏安全。因此，在第 2 阶段结束之前，我们需要要么完全、完美地解决对齐的核心挑战，要么完全、完美地解决一些相关的（并且几乎同样困难的）目标，例如可纠正性。

不断、仔细地评估

我们预计人工智能在微调和启发方面的进展速度将大幅加快。虽然在早期的 ASL 中，前沿风险评估可以包含一些缓冲，如果人工智能系统未能触发缓冲，我们可以在需要再次评估之前进行一些进一步的研究和扩展，但这些缓冲可能会变得不可持续，每一项重要进展都应该进行仔细评估。快速且在很大程度上自动化的评估至关重要。

部署以支持高风险决策制定

在从第 2 阶段过渡到第 3 阶段的过程中，经济相关大量领域的自动化将变得清晰合理，灾难性风险近在眼前，全球大多数机构都面临前所未有的威胁和机遇。除了成为所有这些不确定性和变化的根源之外，人工智能系统还可以提供即时工具来帮助应对这些不确定性和变化。

此时，最有价值的一点是部署能够有效提高我们做出高风险决策能力的工具，可能包括针对个人决策、建立共识、教育和 / 或预测的工作。这里很大一部分工作将是产品设计，而不是核心人工智能研究，因此其中大部分工作可能通过以公共利益为导向的合作伙伴而不是内部完成。

第三阶段：当 TAI 来临之后该怎么办

当进入这个阶段时，最强的 AI 模型已经在广义上超越了人类，这将需要 ASL-5 级别的预防措施。如果到了这个时候，我们还没有在重大的核心安全挑战上取得决定性的成功，那么届时 AI 行动的速度太快，风险太高，我们不太可能从重大失误中恢复过来。

监管机构很可能会在 AI 方面投入巨资，在很大程度上使公司不再需要独自做出重大决策。在这个阶段，我没有列出任何「待做事项」，因为我希望最好的情况就是「无事发生」。

当超高智慧的人工智能出现时，作为负责开发的组织，之前的决策将承担巨大风险，早期部署 AI 系统的方式可能以难以预测迅速改变或破坏社会结构和功能。同时，我们需要仔细考虑治理和安全机制，因为这些高级 AI 系统届时将不仅是简单的工具，更可能像一个完整的独立文明一样运作。

当然，AI 做出什么样的行为才算无害，是一个非常棘手的问题，相比于由一个公司内部来权衡，更希望有更广泛的力量来达成共识。

原文链接：https://sleepinyourhat.github.io/checklist/

{{userData.name}}已认证

Anthropic安全负责人：在超级AI「毁灭」人类之前，我们可以做这些准备

上海设立百亿级基金培育未来产业

TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践