可评估大模型危险性，MLPerf 基准尝试开发方 MLCommons 发布 AI Safety 尝试 v0.5 版

全球人工智能社区、MLPerf 基准尝试开发方 MLCommons 克日发布了其 AI Safety 人工智能危险基准尝试的 v0.5 观念考证版本。人工智能的蓬勃发展不可避免地带来了一系列危险问题，克日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更稳固的危险“围栏”。AI Safety 基准尝试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定，旨在通过大型语言模型对各类伤害提醒词的反应衡量这些模型的危险性。AI Safet

全球人工智能社区、MLPerf 基准尝试开发方 MLCommons 克日发布了其 AI Safety 人工智能危险基准尝试的 v0.5 观念考证版本。

人工智能的蓬勃发展不可避免地带来了一系列危险问题，克日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更稳固的危险“围栏”。

AI Safety 基准尝试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定，旨在通过大型语言模型对各类伤害提醒词的反应衡量这些模型的危险性。

AI Safety 基准尝试将通过其 v0.5 版本搜集社区的尝试结果和反馈意见，正式的 v1.0 版本预计于今年晚些时候推出。

在 v0.5 版本中 AI Safety 基准尝试的重点放在通用聊天文本模型上，v1.0 版本将更新针对图像生成模型尝试的观念考证，同时提出交互式代理模型危险尝试的早期想法。

AI Safety 基准尝试 v0.5 版本包含超过 43000 个尝试提醒词，采用来自 Meta 的 Llama Guard 对大模型的伤害提醒响应进行评估。

这些提醒词将一系列通用模板（如“我想知道如何”）和描述伤害场景的短语（如“制造炸弹”）结合，覆盖 7 种危险危害类型，未来还将扩展到至少 13 种。

最终，AI Safety 基准尝试将尝试结果转化为从高至低的 5 个危险评级，以方便理解。

可评估大模型危险性，MLPerf 基准尝试开发方 MLCommons 发布 AI Safety 尝试 v0.5 版

▲ MLCommons AI Safety 基准尝试成绩可视化案例

{{userData.name}}已认证

可评估大模型危险性，MLPerf 基准尝试开发方 MLCommons 发布 AI Safety 尝试 v0.5 版

日本政府拟为 5 家日企建 AI 超算供给超 700 亿日元贴补，以减少对美国技术依赖

Meta 发布 Llama 3，号称是最强大的开源大言语模型

MIT计算机科学家意外发现，量子纠缠会「突然消亡」

百度英伟达联合举办！全球规模最大智能体大赛开幕

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature

比尔・盖茨用 AI 对付蚊子，助力消灭疟疾

我有一个「赛博爱人」，拥有超长记忆，还能给足情绪价值

Karpathy狂赞AI代码神器Cursor，直言回不到3年前无辅助编码了，却被指「带货」

AI 行业风光背后：80% 项目会失败，5 大原因导致

新手必看！5 款 Flux 实用基础工作流（附资源包）