英国推出开源免费 AI 评估平台 Inspect,可为模型知识 / 推理能力评分

英国人工智能安全研究所(AI Safety Institute)近日推出了一款名为“Inspect”的 AI 模型安全评估平台,该平台采用开源授权方式,向全球 AI 工程师免费开放,允许工程师们评估自家模型性能及安全性。IT之家注意到,这款 Inspect 平台主要由三大主要框架组成,分别为“数据集”、“求解器(Solver)”、“评分器”,可用来评估各款 AI 模型的特定方面能力,包含模型的核心知识储备量、推理能力与自主能力等,相关框架将根据模型测试结果逐一就各项进行评分;除了内置的一系列测试器外,Inspect

英国人工智能安全研究所(AI Safety Institute)近日推出了一款名为“Inspect”的 AI 模型安全评估平台,该平台采用开源授权方式,向全球 AI 工程师免费开放,允许工程师们评估自家模型性能及安全性。

英国推出开源免费 AI 评估平台 Inspect,可为模型知识 / 推理能力评分

IT之家注意到,这款 Inspect 平台主要由三大主要框架组成,分别为“数据集”、“求解器(Solver)”、“评分器”,可用来评估各款 AI 模型的特定方面能力,包含模型的核心知识储备量、推理能力与自主能力等,相关框架将根据模型测试结果逐一就各项进行评分;除了内置的一系列测试器外,Inspect 也允许开发者以 Python 外挂其他测试框架。

英国推出开源免费 AI 评估平台 Inspect,可为模型知识 / 推理能力评分

英国 AI 安全研究所所长 Ian Hogarth 声称,他们推出 Inspect 平台的原因是“相信开源的力量”,该平台能够鼓励更多人作出贡献,同时还能提高 AI 模型透明度及可重复性,同时降低工程师们的成本。

英国推出开源免费 AI 评估平台 Inspect,可为模型知识 / 推理能力评分

参考

Inspect 项目官网

相关资讯

全球首位 AI 软件工程师 Devin 问世:能自学新语言、开发迭代 App、自动 Debug

初创公司 Cognition 近日发布公告,宣布推出全球首个 AI 软件工程师 Devin,并号称会彻底改变人类构建软件的方式。Devin 在 SWE-bench 编码基准测试中取得了突破性的成功,展示了其执行复杂任务的能力,甚至超越了顶尖的人类工程师。*Devin 是在数据集 25% 的随机子集上进行评估的。Devin 是无辅助的,而所有其他模型都是有辅助的(这意味着模型被告知哪些文件需要编辑)。Devin 擅长长期推理能力,可以自主规划和完成软件项目,并在此过程中做出数以千计的准确决策。IT之家附上 Devin

AGI前夜的思考:2025年将出现真正的AI智能体,年轻人需要快速适应

2025 新年将至。 对于新的一年和未来几年,你对 AI 领域有什么期待和设想呢? 你是否认为 AGI 将要实现了而人类社会的一切都将因之而改变。

全球首个AI CUDA工程师来了!将PyTorch原生实现提速10-100倍

用 AI 提高 AI 的效率,它们就能变得像人类大脑一样高效? 我们的大脑只用了 20 瓦的能量就能完成复杂思考,而现代 AI 系统却需要成排的高功率 GPU 和惊人的电力消耗。 这种差距如何缩小?