Safety
谷歌 DeepMind 推出 AI 安全框架 Frontier Safety Framework,可检测优化降低大模型风险性
谷歌 DeepMind 日前推出了一款名为“Frontier Safety Framework”的 AI 安全框架,主要用于检测 AI 模型的风险情况,号称能够主动识别“未来可能酿成重大风险的 AI 能力”,向研究人员指出相关模型“究竟在哪些层面可能会被黑客利用”。据介绍,DeepMind 目前公布的 Frontier Safety Framework 1.0 版本主要包含三个关键组件,即“识别模型是否具备酿成重大风险的能力”,“预估模型会在什么阶段具备安全隐患”、“智能优化模型防止其酿成风险”。▲ 图源 谷歌官方
可评估大模型安全性,MLPerf 基准测试开发方 MLCommons 发布 AI Safety 测试 v0.5 版
全球人工智能社区、MLPerf 基准测试开发方 MLCommons 近日发布了其 AI Safety 人工智能安全基准测试的 v0.5 概念验证版本。人工智能的蓬勃发展不可避免地带来了一系列安全问题,近日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更牢靠的安全“围栏”。AI Safety 基准测试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定,旨在通过大型语言模型对各类危险提示词的反应衡量这些模型的安全性。AI Safet
- 1