bench

首个评估MLLMs对地质图理解的基准集，以及专为地质图理解设计的Agent

编辑 | ScienceAI地质图作为地质科学的核心工具，不仅揭示了地球地下及地表结构的关键信息，还在灾害预警、矿产资源勘探、工程建设以及环境保护等多个领域有着广泛的应用。例如，在灾害预警中，地质图有助于预测和防范如地震、滑坡等地质灾害；在矿产资源勘探中，矿产地质图可以分析研究矿床形成的地质背景、成矿条件、矿床类型和分布规律；在工程建设时，工程地质图对于判断区域稳定性至关重要，能够保障建筑物的安全性；而在环境保护方面，水文地质图则有助于分析水文条件和污染源分布。地质图的理解具有极高的门槛。

3/24/2025 2:10:00 PM

ScienceAI

最真实大模型编程评估！字节开源FullStack Bench，首次全覆盖超11类现实编程场景

代码大模型越来越卷，评估AI编程水平的“考卷”也被迫升级。 12月5日，字节豆包大模型团队开源最新代码大模型评估基准FullStack Bench，在业界首次囊括编程全栈技术中超11类真实场景，覆盖16种编程语言，包含3374个问题，相比此前基准，可以更有效地评估大模型在现实世界中的代码开发能力。代码评估基准是衡量大模型编程能力的标准工具，也是推动模型优化的关键驱动力。

12/5/2024 3:46:00 PM

新闻助手

首个 AI Kaggle 特级大师诞生，OpenAI 的 o1-preview 夺 7 金封王

科技媒体 The Decoder 昨日（10 月 11 日）发布博文，报道称 OpenAI 公司推出 MLE-bench 新基准，旨在评估 AI 智能体在开发机器学习解决方案方面的能力。该基准包括 75 个 Kaggle 竞赛，旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛涵盖了多个领域，包括自然语言处理、计算机视觉和信号处理等等。

10/12/2024 1:51:58 PM

故渊

OpenAI 推出 SWE-bench Verified 基准，更准确评估 AI 模型代码生成表现

感谢OpenAI 公司于 8 月 13 日发布新闻稿，宣布推出 SWE-bench Verified 代码生成评估基准，解决了此前的局限性问题，能够更准确地评估人工智能模型在软件工程任务中的表现。SWE-benchAI在线注：SWE-Bench 是一个用于评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集。它收集了来自 12 个流行的 Python 仓库的 2294 个 Issue-Pull Request 对。在测试时，LLM 会拿到一个代码库和 issue 描述，然后生成一个补丁来解决 iss

8/15/2024 2:34:33 PM

故渊

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索 ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练