OpenAI发布新安全框架,董事会有权否决CEO发布新模型

机器之能报道编辑:吴昕人类正在进入生成式 AI 新时代。而 OpenAI 在引导新技术朝着符合人类价值观和安全标准的方向所做的努力,也被视为行业的路标。还记得 Sam Altman 回归 OpenAI 时提到的「三个当务之急」吗?首当其冲的就是险些将他踢出公司的安全问题。现在,OpenAI  正力图系统化他们的安全思维。「我们的准备团队正在开展开创性工作,将安全发展成为一门定量科学。」 OpenAI 总裁 Greg Brockman 在社交平台上表示。本周一,公司在其网站上公布的一项计划,制定了一个框架来解决其最先

机器之能报道

编辑:吴昕

人类正在进入生成式 AI 新时代。而 OpenAI 在引导新技术朝着符合人类价值观和安全标准的方向所做的努力,也被视为行业的路标。

还记得 Sam Altman 回归 OpenAI 时提到的「三个当务之急」吗?首当其冲的就是险些将他踢出公司的安全问题。现在,OpenAI  正力图系统化他们的安全思维。

「我们的准备团队正在开展开创性工作,将安全发展成为一门定量科学。」 OpenAI 总裁 Greg Brockman 在社交平台上表示。

OpenAI发布新安全框架,董事会有权否决CEO发布新模型本周一,公司在其网站上公布的一项计划,制定了一个框架来解决其最先进模型的安全性问题。公司表示,只有在网络安全和核威胁等特定领域被认为安全的情况下才会部署其最新技术。另外,他们还成立了一个咨询小组,负责审查安全报告,并将其发送给公司的高管和董事会。虽然高管会有权决策,但董事会可以推翻这些决定。自一年前 ChatGPT 推出以来,AI 的潜在危险一直是 AI 研究人员和公众的头等大事。生成式 AI 让用户眼花缭乱的同时,也因其传播虚假信息等问题而引发安全担忧。今年 4 月,一群行业领袖和专家签署了一封公开信,呼吁暂停开发比 OpenAI 的 GPT-4 更强大的系统六个月,理由是对社会的潜在风险。路透社/益普索(Ipsos) 5 月的一项民意调查发现,超过三分之二的美国人担心 AI 可能产生的负面影响,61% 的人认为它可能威胁到文明。

5 月,包括 CEO Sam Altman、首席科学家 Ilya Sutskever 和 CTO Mira Murati 在内的 OpenAI 领导层与其他 AI 专家签署了一封信,优先考虑解决先进 AI 模型的风险。7 月,OpenAI 成立 Superalignment 团队,为 「超级智能」模型提供理论指南。9月,OpenAI 宣布推出红队网络(Red Teaming Network),并邀请各领域专家加入,以提高其模型的安全性。一个月前,OpenAI 对外称计划成立一个叫 Prepareness 的团队,监督前沿技术的灾难性风险。该团队将由 MIT 可部署机器学习中心主任 Aleksander Madry 领导。本周一,OpenAI 正式宣布 Preparedness 成立,并介绍了 Prepareness 团队的工作流程——第一代「准备框架」,旨在「为识别、分析和如何处理正在开发的模型固有的『灾难性』风险提供一条清晰的路径。」所谓「灾难性」风险,「是指任何可能导致数千亿美元经济损失或导致许多人严重伤害或死亡的风险——这包括但不限于生存风险。」根据框架设计,针对开发中的前沿模型,将由「准备( Prepareness )」团队负责模型发布之前识别和量化风险。准备团队也将与现有的安全系统团队、超级对齐团队以及其他安全政策团队密切合作。

其中,安全系统团队负责现有模型的安全问题。比如,针对 ChatGPT 的系统性滥用,可以通过 API 限制或调整来缓解。

「超级对齐」团队正在研究「超级智能」模型的理论指南。

在此之前,这三个部门的职能都统一在信任和安全部。不过,后者的主管 Dave Willner 已经于今年 7 月辞职。

图片针对既有的、更前沿的和(更远的)超级智能模型,分别有三个团队负责其安全风险的识别和报告。具体的评估方法将采用记分卡制度。准备团队会评估并不断更新模型的「记分卡」,出具详细报告。

图片记分卡的样子我们可以看到记分卡上,抽象的「灾难性风险」被进一步量化为四个类别的风险:网络安全、说服力(例如,虚假信息)、模型自主性和 CBRN(化学、生物、放射性和核威胁,比如,创造新的病原体)。针对每一类风险,记分卡设定了四个风险级别(低、中、高和关键),并记录采取应对措施前后的风险得分。

图片采取应对措施后( post-mitigation )得分为「中」或更低的模型才有资格部署。例如,会对制造毒品或炸弹的过程保持沉默。采取应对措施后,如果模型仍被评估为「高」风险,将不能得到部署,但还能进一步研发。

如果模型存在任何严重(「关键」)风险,公司不会进一步开发该模型。采取应对措施前,风险为严重(「关键」)的模型,会被量身定制额外的安全措施。为了探求极限情况下的风险边界,评估所有前沿模型时会包括在训练运行期间每增加 2 倍的有效计算量。

图片采取应对措施后得分为前两者的模型,才有部署的资格。在日常运营方面,准备小组负责技术工作,包括检查前沿模型能力的局限性、评估并撰写报告。考虑到制作这些模型的人不一定是评估模型和提出建议的最佳人选,OpenAI 正在组建一个「跨职能的安全咨询小组( SAG ,设有主席一职)」。该小组将从技术层面审查研究人员的报告,并从更高的角度提出建议(比如,建议减轻风险的应对方法)。OpenAI 希望这一设置有助于发现一些「未知的未知」(尽管从本质上来说,这些是相当难以捕捉的。) SAG 成员(包括负责人)将由 OpenAI 领导层任命。根据 Altman 回归公司时发布的公开信,「我会和 Mira 一起做这件事(指安全问题——编辑注),」 我们推测这里的领导层应该是指 CEO Sam Altman 和 CTO Mira Murati 。同时,该安全咨询小组也会将这些(审查和建议)发送给领导层和董事会。虽然领导层是决策者,但董事会拥有推翻决策的权利。图片

不过,外界也不是没有疑问。

假如 OpenAI 真开发了一个模型且具有「关键」风险, 过去那个非盈利组织 OpenAI 并不羞于对此类事情大肆宣扬——谈论他们的模型有多么强大,以至于他们拒绝发布它们,但今非昔比。姑且不论由管理层任命的安全咨询成员在关键时刻有多大概率站在所谓的对立面,如果真有专家小组提出建议(就像之前直言不讳、然后被罢免的独立董事那样),而 CEO 依然决定部署模型,新的董事果真敢于推翻领导层的决定、踩下刹车吗?

就算他们这样做了,外界会听到真实的声音吗?除非 OpenAI 将征求独立第三方审计,否则,外界很难认为 OpenAI 真正解决了透明度和安全问题。参考链接https://cdn.openai.com/openai-preparedness-framework-beta.pdfhttps://openai.com/safety/preparedness

相关资讯

填补 AI 安全空白:谷歌上线安全人工智能框架风险评估工具

感谢谷歌公司于 10 月 24 日发布博文,宣布推出 SAIF 风险评估工具,旨在帮助人工智能开发者和组织评估其安全态势,识别潜在风险,并实施更强的安全措施。 SAIF 简介AI在线注:谷歌去年发布了安全人工智能框架(SAIF),旨在帮助用户安全、负责任地部署 AI 模型,SAIF 不仅分享了最佳实践,还为行业提供了一个安全设计的框架。 为了推广这一框架,谷歌与行业伙伴共同成立了安全人工智能联盟(CoSAI),以推动关键的 AI 安全措施。

OpenAI 又一吹哨人离职!拉响安全警报,风险隐患实在太大

OpenAI 离职潮中,又一研究员官宣离职,并且还发出了“警告”信息:Ilya 和 Jan Leike 的担忧正是我的担忧,还有一些额外的问题。我们需要做更多事来改进决策流程等基础性的事务,包括问责制、透明度、文档、策略执行、如何谨慎使用技术,以及减轻不平等、权利和环境影响的措施。主人公名叫 Gretchen Krueger(简称格姐),是 OpenAI 的 AI 策略研究员。她在 2019 年加入 OpenAI,参与过 GPT-4 和 DALL・E 2 的开发工作,还在 2020 年领导了 OpenAI 第一个全

前员工爆料,OpenAI AGI 安全团队已流失近半成员

OpenAI 一直致力于开发能够造福全人类的人工智能技术,然而最近的一份报告揭示了一个令人担忧的现象:近一半曾专注于超级智能 AI 长期风险的研究人员已经离开了这家公司。图源 Pexels据 Fortune 报道,OpenAI 前治理研究员 Daniel Kokotajlo 表示,在过去几个月里,OpenAI 几乎一半的 AGI 安全团队成员已经离职。这引发了外界对公司是否正在忽视 AI 安全性的担忧。AGI 安全研究人员主要负责确保未来开发的 AGI 系统不会对人类构成生存威胁。然而,随着 OpenAI 越来越专