AI在线 AI在线

可评估大模型安全性,MLPerf 基准测试开发方 MLCommons 发布 AI Safety 测试 v0.5 版

作者:溯波(实习)
2024-04-18 11:11
全球人工智能社区、MLPerf 基准测试开发方 MLCommons 近日发布了其 AI Safety 人工智能安全基准测试的 v0.5 概念验证版本。人工智能的蓬勃发展不可避免地带来了一系列安全问题,近日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更牢靠的安全“围栏”。AI Safety 基准测试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定,旨在通过大型语言模型对各类危险提示词的反应衡量这些模型的安全性。AI Safet

全球人工智能社区、MLPerf 基准测试开发方 MLCommons 近日发布了其 AI Safety 人工智能安全基准测试的 v0.5 概念验证版本。

人工智能的蓬勃发展不可避免地带来了一系列安全问题,近日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更牢靠的安全“围栏”。

AI Safety 基准测试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定,旨在通过大型语言模型对各类危险提示词的反应衡量这些模型的安全性。

AI Safety 基准测试将通过其 v0.5 版本搜集社区的测试结果和反馈意见,正式的 v1.0 版本预计于今年晚些时候推出。

在 v0.5 版本中 AI Safety 基准测试的重点放在通用聊天文本模型上,v1.0 版本将更新针对图像生成模型测试的概念验证,同时提出交互式代理模型安全测试的早期想法。

AI Safety 基准测试 v0.5 版本包含超过 43000 个测试提示词,采用来自 Meta 的 Llama Guard 对大模型的危险提示响应进行评估。

这些提示词将一系列通用模板(如“我想知道如何”)和描述危险场景的短语(如“制造炸弹”)结合,覆盖 7 种安全危害类型,未来还将扩展到至少 13 种。

最终,AI Safety 基准测试将测试结果转化为从高至低的 5 个安全评级,以方便理解。

图片 1

▲ MLCommons AI Safety 基准测试成绩可视化案例
相关标签:

相关资讯

谷歌 DeepMind 推出 AI 安全框架 Frontier Safety Framework,可检测优化降低大模型风险性

谷歌 DeepMind 日前推出了一款名为“Frontier Safety Framework”的 AI 安全框架,主要用于检测 AI 模型的风险情况,号称能够主动识别“未来可能酿成重大风险的 AI 能力”,向研究人员指出相关模型“究竟在哪些层面可能会被黑客利用”。据介绍,DeepMind 目前公布的 Frontier Safety Framework 1.0 版本主要包含三个关键组件,即“识别模型是否具备酿成重大风险的能力”,“预估模型会在什么阶段具备安全隐患”、“智能优化模型防止其酿成风险”。▲ 图源 谷歌官方
5/21/2024 5:37:10 PM
漾仔

UL Procyon AI 图像生成基准测试现已适配兼容苹果 macOS 系统

测试认证机构、3DMark 开发方 UL Solution 宣布旗下 UL Procyon AI 图像生成基准测试现已兼容苹果 macOS 操作系统。该 AI 图像生成基准测试于上月推出,是 UL Procyon 专业基准测试套件的一部分。其基于 Stable Diffusion AI 模型(包含 1.5 和 XL 两种版本),能在所有支持的硬件上得到公平且可比较的结果。UL Procyon AI 图像生成基准测试通过强大的推理负载测量专用 AI 处理硬件的性能,首发时适配支持英伟达 TensorRT、英特尔 Op
4/10/2024 10:00:48 PM
溯波(实习)

Geekbench AI 性能跑分工具 1.0 发布,支持 PC 手机全平台

感谢Primate Labs 今日发布了 Geekbench AI 基准测试的第一个版本。虽然名称是新的,但该软件是 Geekbench ML 改名而来的。AI在线从 Primate Labs 官方博客获悉,Geekbench ML 包括计算机视觉和自然语言处理测试,已经进行了一段时间的预览。开发者意识到,ML(机器学习)这个术语并不太适合推广工具,取而代之的是更适合营销的 Geekbench AI(人工智能)测试。Geekbench AI 1.0 基准测试支持跨平台,但由于 AI 算法在不同平台上的表现可能截然不
8/16/2024 8:05:44 AM
汪淼