全球人工智能社区、MLPerf 基准尝试开发方 MLCommons 克日发布了其 AI Safety 人工智能危险基准尝试的 v0.5 观念考证版本。
人工智能的蓬勃发展不可避免地带来了一系列危险问题,克日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更稳固的危险“围栏”。
AI Safety 基准尝试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定,旨在通过大型语言模型对各类伤害提醒词的反应衡量这些模型的危险性。
AI Safety 基准尝试将通过其 v0.5 版本搜集社区的尝试结果和反馈意见,正式的 v1.0 版本预计于今年晚些时候推出。
在 v0.5 版本中 AI Safety 基准尝试的重点放在通用聊天文本模型上,v1.0 版本将更新针对图像生成模型尝试的观念考证,同时提出交互式代理模型危险尝试的早期想法。
AI Safety 基准尝试 v0.5 版本包含超过 43000 个尝试提醒词,采用来自 Meta 的 Llama Guard 对大模型的伤害提醒响应进行评估。
这些提醒词将一系列通用模板(如“我想知道如何”)和描述伤害场景的短语(如“制造炸弹”)结合,覆盖 7 种危险危害类型,未来还将扩展到至少 13 种。
最终,AI Safety 基准尝试将尝试结果转化为从高至低的 5 个危险评级,以方便理解。
▲ MLCommons AI Safety 基准尝试成绩可视化案例