英国推出开源免费 AI 评估平台 Inspect,可为模型知识 / 推理能力评分

英国人工智能安全研究所(AI Safety Institute)近日推出了一款名为“Inspect”的 AI 模型安全评估平台,该平台采用开源授权方式,向全球 AI 工程师免费开放,允许工程师们评估自家模型性能及安全性。IT之家注意到,这款 Inspect 平台主要由三大主要框架组成,分别为“数据集”、“求解器(Solver)”、“评分器”,可用来评估各款 AI 模型的特定方面能力,包含模型的核心知识储备量、推理能力与自主能力等,相关框架将根据模型测试结果逐一就各项进行评分;除了内置的一系列测试器外,Inspect

英国人工智能安全研究所(AI Safety Institute)近日推出了一款名为“Inspect”的 AI 模型安全评估平台,该平台采用开源授权方式,向全球 AI 工程师免费开放,允许工程师们评估自家模型性能及安全性。

英国推出开源免费 AI 评估平台 Inspect,可为模型知识 / 推理能力评分

IT之家注意到,这款 Inspect 平台主要由三大主要框架组成,分别为“数据集”、“求解器(Solver)”、“评分器”,可用来评估各款 AI 模型的特定方面能力,包含模型的核心知识储备量、推理能力与自主能力等,相关框架将根据模型测试结果逐一就各项进行评分;除了内置的一系列测试器外,Inspect 也允许开发者以 Python 外挂其他测试框架。

英国推出开源免费 AI 评估平台 Inspect,可为模型知识 / 推理能力评分

英国 AI 安全研究所所长 Ian Hogarth 声称,他们推出 Inspect 平台的原因是“相信开源的力量”,该平台能够鼓励更多人作出贡献,同时还能提高 AI 模型透明度及可重复性,同时降低工程师们的成本。

英国推出开源免费 AI 评估平台 Inspect,可为模型知识 / 推理能力评分

参考

Inspect 项目官网

相关资讯

全球首位 AI 软件工程师 Devin 问世:能自学新语言、开发迭代 App、自动 Debug

初创公司 Cognition 近日发布公告,宣布推出全球首个 AI 软件工程师 Devin,并号称会彻底改变人类构建软件的方式。Devin 在 SWE-bench 编码基准测试中取得了突破性的成功,展示了其执行复杂任务的能力,甚至超越了顶尖的人类工程师。*Devin 是在数据集 25% 的随机子集上进行评估的。Devin 是无辅助的,而所有其他模型都是有辅助的(这意味着模型被告知哪些文件需要编辑)。Devin 擅长长期推理能力,可以自主规划和完成软件项目,并在此过程中做出数以千计的准确决策。IT之家附上 Devin

AGI前夜的思考:2025年将出现真正的AI智能体,年轻人需要快速适应

2025 新年将至。 对于新的一年和未来几年,你对 AI 领域有什么期待和设想呢? 你是否认为 AGI 将要实现了而人类社会的一切都将因之而改变。

OpenAI 将参与外部供应商设计流程,以获符合需求 AI 硬件

据英媒 Data Centre Dynamics 报道,OpenAI 正招募软硬件协同设计工程师,帮助外部供应商设计符合 OpenAI 自身需求的 AI 硬件。OpenAI 官网页面显示,该职位位于美国加州旧金山,将与其硬件工程师团队一同工作。对内,该职位需要同 OpenAI 内部的机器学习工程师、内核工程师、编译器开发人员合作,了解他们对高性能加速器在机器学习技术、算法、数值近似、编程表达性和编译器优化等方面的愿景和需求。对外,该职位需要同多个外部供应商一起实现 AI 硬件的性能和可编程性目标,并协同第三方开发最