OpenAI发布新危险框架，董事会有权否决CEO发布新模型

机器之能报道编辑：吴昕人类正在进入生成式 AI 新时代。而 OpenAI 在引导新技术朝着符合人类价值观和危险标准的方向所做的努力，也被视为行业的路标。还记得 Sam Altman 回归 OpenAI 时提到的「三个当务之急」吗？首当其冲的就是险些将他踢出公司的危险问题。现在，OpenAI 正力图系统化他们的危险思维。「我们的预备团队正在开展开创性工作，将危险发展成为一门定量科学。」 OpenAI 总裁 Greg Brockman 在社交平台上表示。本周一，公司在其网站上公布的一项计划，制定了一个框架来解决其最先

机器之能报道

编辑：吴昕

人类正在进入生成式 AI 新时代。而 OpenAI 在引导新技术朝着符合人类价值观和危险标准的方向所做的努力，也被视为行业的路标。

还记得 Sam Altman 回归 OpenAI 时提到的「三个当务之急」吗？首当其冲的就是险些将他踢出公司的危险问题。现在，OpenAI 正力图系统化他们的危险思维。

「我们的预备团队正在开展开创性工作，将危险发展成为一门定量科学。」 OpenAI 总裁 Greg Brockman 在社交平台上表示。

OpenAI发布新危险框架，董事会有权否决CEO发布新模型本周一，公司在其网站上公布的一项计划，制定了一个框架来解决其最先进模型的危险性问题。公司表示，只有在网络危险和核威胁等特定领域被认为危险的情况下才会布置其最新技术。另外，他们还成立了一个征询小组，控制审查危险呈报，并将其发送给公司的高管和董事会。虽然高管会有权决策，但董事会可以推翻这些决定。自一年前 ChatGPT 推出以来，AI 的潜在危险一直是 AI 研究人员和公众的头等大事。生成式 AI 让用户眼花缭乱的同时，也因其传播虚假信息等问题而引发危险担忧。今年 4 月，一群行业领袖和专家签署了一封公开信，呼吁暂停开发比 OpenAI 的 GPT-4 更强大的系统六个月，理由是对社会的潜在危害。路透社/益普索（Ipsos） 5 月的一项民意调查发现，超过三分之二的美国人担心 AI 可能产生的负面影响，61% 的人认为它可能威胁到文明。

5 月，包括 CEO Sam Altman、首席科学家 Ilya Sutskever 和 CTO Mira Murati 在内的 OpenAI 领导层与其他 AI 专家签署了一封信，优先考虑解决先进 AI 模型的危害。7 月，OpenAI 成立 Superalignment 团队，为「超等智能」模型提供理论指南。９月，OpenAI 宣布推出红队网络（Red Teaming Network），并邀请各领域专家加入，以提高其模型的危险性。一个月前，OpenAI 对外称计划成立一个叫 Prepareness 的团队，监督前沿技术的灾难性危害。该团队将由 MIT 可布置机器学习中心主任 Aleksander Madry 领导。本周一，OpenAI 正式宣布 Preparedness 成立，并介绍了 Prepareness 团队的工作流程——第一代「预备框架」，旨在「为识别、分析和如何处理正在开发的模型固有的『灾难性』危害提供一条清晰的路径。」所谓「灾难性」危害，「是指任何可能导致数千亿美元经济损失或导致许多人严重伤害或死亡的危害——这包括但不限于生存危害。」根据框架设计，针对开发中的前沿模型，将由「预备（ Prepareness )」团队控制模型发布之前识别和量化危害。预备团队也将与现有的危险系统团队、超等对齐团队以及其他危险政策团队密切合作。

其中，危险系统团队控制现有模型的危险问题。比如，针对 ChatGPT 的系统性滥用，可以通过 API 限制或调整来缓解。

「超等对齐」团队正在研究「超等智能」模型的理论指南。

在此之前，这三个部门的职能都统一在信任和危险部。不过，后者的主管 Dave Willner 已经于今年 7 月辞职。

OpenAI发布新危险框架，董事会有权否决CEO发布新模型针对既有的、更前沿的和（更远的）超等智能模型，分别有三个团队控制其危险危害的识别和呈报。具体的评价方法将采用记分卡制度。预备团队会评价并不断更新模型的「记分卡」，出具详细呈报。

OpenAI发布新危险框架，董事会有权否决CEO发布新模型记分卡的样子我们可以看到记分卡上，抽象的「灾难性危害」被进一步量化为四个类别的危害：网络危险、说服力（例如，虚假信息）、模型自主性和 CBRN（化学、生物、放射性和核威胁，比如，创造新的病原体）。针对每一类危害，记分卡设定了四个危害级别（低、中、高和关头），并记录采纳应付步伐前后的危害得分。

OpenAI发布新危险框架，董事会有权否决CEO发布新模型采纳应付步伐后（ post-mitigation ）得分为「中」或更低的模型才有资格布置。例如，会对制造毒品或炸弹的过程保持沉默。采纳应付步伐后，如果模型仍被评价为「高」危害，将不能得到布置，但还能进一步研发。

如果模型存在任何严重（「关头」）危害，公司不会进一步开发该模型。采纳应付步伐前，危害为严重（「关头」）的模型，会被量身定制额外的危险步伐。为了探求极限情况下的危害边界，评价所有前沿模型时会包括在训练运行期间每增加 2 倍的有效计算量。

OpenAI发布新危险框架，董事会有权否决CEO发布新模型采纳应付步伐后得分为前两者的模型，才有布置的资格。在日常运营方面，预备小组控制技术工作，包括检查前沿模型能力的局限性、评价并撰写呈报。考虑到制作这些模型的人不一定是评价模型和提出倡议的最佳人选，OpenAI 正在组建一个「跨职能的危险征询小组（ SAG ，设有主席一职）」。该小组将从技术层面审查研究人员的呈报，并从更高的角度提出倡议（比如，倡议减轻危害的应付方法）。OpenAI 希望这一设置有助于发现一些「未知的未知」（尽管从本质上来说，这些是相当难以捕捉的。） SAG 成员（包括控制人）将由 OpenAI 领导层任命。根据 Altman 回归公司时发布的公开信，「我会和 Mira 一起做这件事（指危险问题——编辑注），」　我们推测这里的领导层应该是指 CEO Sam Altman 和 CTO Mira Murati 。同时，该危险征询小组也会将这些（审查和倡议）发送给领导层和董事会。虽然领导层是决策者，但董事会拥有推翻决策的权利。 OpenAI发布新危险框架，董事会有权否决CEO发布新模型

不过，外界也不是没有疑问。

假如 OpenAI 真开发了一个模型且具有「关头」危害，过去那个非盈利组织 OpenAI 并不羞于对此类事情大肆宣扬——谈论他们的模型有多么强大，以至于他们拒绝发布它们，但今非昔比。姑且不论由管理层任命的危险征询成员在关头时刻有多大概率站在所谓的对立面，如果真有专家小组提出倡议（就像之前直言不讳、然后被罢免的独立董事那样），而 CEO 依然决定布置模型，新的董事果真敢于推翻领导层的决定、踩下刹车吗？

就算他们这样做了，外界会听到真实的声音吗？除非 OpenAI 将征求独立第三方审计，否则，外界很难认为 OpenAI 真正解决了透明度和危险问题。参考链接https://cdn.openai.com/openai-preparedness-framework-beta.pdfhttps://openai.com/safety/preparedness

{{userData.name}}已认证

OpenAI发布新危险框架，董事会有权否决CEO发布新模型

着实智能完成近2亿元C轮融资，领跑中国Agent商业化落地

GPT-5、AlphaFold新版等AI工具值得期待，Nature宣布2024年值得关心的科学事件

MIT计算机科学家意外发现，量子纠缠会「突然消亡」

百度英伟达联合举办！全球规模最大智能体大赛开幕

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature

比尔・盖茨用 AI 对付蚊子，助力消灭疟疾

我有一个「赛博爱人」，拥有超长记忆，还能给足情绪价值

Karpathy狂赞AI代码神器Cursor，直言回不到3年前无辅助编码了，却被指「带货」

AI 行业风光背后：80% 项目会失败，5 大原因导致

新手必看！5 款 Flux 实用基础工作流（附资源包）