AI在线 AI在线

bench

首个评估MLLMs对地质图理解的基准集,以及专为地质图理解设计的Agent

编辑 | ScienceAI地质图作为地质科学的核心工具,不仅揭示了地球地下及地表结构的关键信息,还在灾害预警、矿产资源勘探、工程建设以及环境保护等多个领域有着广泛的应用。 例如,在灾害预警中,地质图有助于预测和防范如地震、滑坡等地质灾害;在矿产资源勘探中,矿产地质图可以分析研究矿床形成的地质背景、成矿条件、矿床类型和分布规律;在工程建设时,工程地质图对于判断区域稳定性至关重要,能够保障建筑物的安全性;而在环境保护方面,水文地质图则有助于分析水文条件和污染源分布。 地质图的理解具有极高的门槛。
3/24/2025 2:10:00 PM
ScienceAI

最真实大模型编程评估!字节开源FullStack Bench,首次全覆盖超11类现实编程场景

代码大模型越来越卷,评估AI编程水平的“考卷”也被迫升级。 12月5日,字节豆包大模型团队开源最新代码大模型评估基准FullStack Bench,在业界首次囊括编程全栈技术中超11类真实场景,覆盖16种编程语言,包含3374个问题,相比此前基准,可以更有效地评估大模型在现实世界中的代码开发能力。 代码评估基准是衡量大模型编程能力的标准工具,也是推动模型优化的关键驱动力。
12/5/2024 3:46:00 PM
新闻助手

首个 AI Kaggle 特级大师诞生,OpenAI 的 o1-preview 夺 7 金封王

科技媒体 The Decoder 昨日(10 月 11 日)发布博文,报道称 OpenAI 公司推出 MLE-bench 新基准,旨在评估 AI 智能体在开发机器学习解决方案方面的能力。该基准包括 75 个 Kaggle 竞赛,旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。
10/12/2024 1:51:58 PM
故渊

OpenAI 推出 SWE-bench Verified 基准,更准确评估 AI 模型代码生成表现

感谢OpenAI 公司于 8 月 13 日发布新闻稿,宣布推出 SWE-bench Verified 代码生成评估基准,解决了此前的局限性问题,能够更准确地评估人工智能模型在软件工程任务中的表现。SWE-benchAI在线注:SWE-Bench 是一个用于评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集。它收集了来自 12 个流行的 Python 仓库的 2294 个 Issue-Pull Request 对。在测试时,LLM 会拿到一个代码库和 issue 描述,然后生成一个补丁来解决 iss
8/15/2024 2:34:33 PM
故渊
  • 1