基准

「世界开源新王」Reflection 70B 跌落神坛？重测跑分暴跌实锤造假
「世界开源新王」Reflection 70B，才坐上王座没几天就被打假，跌落神坛了！甚至有人质疑，它莫不是套壳的 Sonnet 3.5？发布者 Matt Shumer 和 Sahil Chaudhary 经过一番挣扎，已经光速「滑跪」，po 出的复盘长文也是亮点满满。「开源新王」Reflection 70B，才发布一个月就跌落神坛了？9 月 5 日，Hyperwrite AI 联创兼 CEO Ma…
应用
- 6
- 0
清源10月7日
微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能
科技媒体 NeoWin 昨日（9 月 14 日）发布博文，报道称微软官方推出了 Windows Agent Arena 基准框架，用于评估生成式 AI Agents 在 Windows PC 上的性能。Windows Agent Arena 基准框架微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度，其中包括 Microsoft Edge 和谷歌 Chrome …
应用
- 30
- 0
故渊9月15日
谷歌 AI 推出 CardBench 评估框架：含 20 个真实数据库，更全面评估基数估计模型
谷歌 AI 研究人员最新推出了 CardBench 基准，主要为学习型基数估计（cardinality estimation）满足系统评估框架需求。CardBench 基准是个综合评估框架，包含 20 个不同真实数据库中的数千次查询，大大超过了以往的任何基准。项目背景基数估计（cardinality estimation，简称 CE）是优化关系数据库查询性能的关键，涉及预测数据库查询将返回的中间结…
应用
- 13
- 0
故渊9月3日
Geekbench AI 性能跑分工具 1.0 发布，支持 PC 手机全平台
感谢Primate Labs 今日发布了 Geekbench AI 基准测试的第一个版本。虽然名称是新的，但该软件是 Geekbench ML 改名而来的。AI在线从 Primate Labs 官方博客获悉，Geekbench ML 包括计算机视觉和自然语言处理测试，已经进行了一段时间的预览。开发者意识到，ML（机器学习）这个术语并不太适合推广工具，取而代之的是更适合营销的 Geekbench A…
应用
- 24
- 0
汪淼8月16日
CoT提出者Jason Wei：大模型评价基准的「七宗罪」
Jason Wei 是思惟链提出者，并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在 OpenAI 进行工作。在 CV 规模，研究者一直把李飞飞等人创造的 ImageNet 奉为模型在下游视觉任务中能力的试金石。在大模型时代，我们该如何评价 LLM 性能？现阶段，研究者已经提出了诸如 MMLU、GSM8K 等一些评价基准，不断有 LLM 在其上刷新得分。但这些…
理论
- 6
- 0
机器之心5月27日
声称“媲美人类专家”，google Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%
google公司上周发布技术报告，表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后，大幅提高了数学课题，并成功办理了国际数学奥林匹克竞赛的部分课题。google针对数学场景有针对性地训练 Gemini 1.5 Pro 模型，并通过 MATH 基准、美国数学邀请考试（ AIME) 和google内部的 HiddenMath 基准进行尝试。根据google的数据，数学型 Gemin…
AI
- 30
- 0
故渊5月21日
可评估大模型危险性，MLPerf 基准尝试开发方 MLCommons 发布 AI Safety 尝试 v0.5 版
全球人工智能社区、MLPerf 基准尝试开发方 MLCommons 克日发布了其 AI Safety 人工智能危险基准尝试的 v0.5 观念考证版本。人工智能的蓬勃发展不可避免地带来了一系列危险问题，克日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更稳固的危险“围栏”。AI Safety 基准尝试由集合了行业技术专家、学术研究人员、政…
AI
- 25
- 0
溯波（实习）4月18日
UL Procyon AI 图象生成基准尝试现已适配兼容苹果 macOS 系统
尝试认证机构、3DMark 开发方 UL Solution 宣布旗下 UL Procyon AI 图象生成基准尝试现已兼容苹果 macOS 操作系统。该 AI 图象生成基准尝试于上月推出，是 UL Procyon 专业基准尝试套件的一部分。其基于 Stable Diffusion AI 模型（包含 1.5 和 XL 两种版本），能在所有撑持的硬件上得到公平且可比较的结果。UL Procyon AI…
AI
- 33
- 0
溯波（实习）4月10日
马斯克 xAI 推出 Grok-1.5 大语言模型：提升推理能力，可处理 128k 上下文
感谢马斯克旗下人工智能公司 xAI 今天在民间博客中宣布，正式推出 Grok-1.5 大语言模型。Grok-1.5 具有改良的推理能力和 128k 的上下文长度，其中最显著的改良之一是其在编码和数学相关任务中的表现。Grok-1.5 将在未来几天内在 𝕏 平台上向早期尝试人员和现有的 Grok 用户推出。在民间尝试中，Grok-1.5 在 MATH 基准上博得了 50.6% 的成果，在 GSM8K…
AI
- 8
- 0
汪淼3月29日
首次大规模多说话评价，支持7种说话，生物医学范畴7B开源LLM
编辑 | X大说话模型 (LLM) 已应用于医疗保健和医学等业余范畴。尽管有各种为健康环境量身定制的开源 LLM，但将通用 LLM 应用于医学范畴仍存在重大挑战。近日，法国阿维尼翁大学（Avignon Université ）、南特大学（Nantes Université）和 Zenidoc 的研讨团队开发了 BioMistral，一个专为生物医学范畴量身定制的开源 LLM，利用 Mistral …
理论
- 11
- 0
ScienceAI2月21日
大视觉言语模型基准数据集ReForm-Eval：新瓶装旧酒，给旧有的基准数据集换个情势就能用来评价新的大视觉言语模型
概要复旦DISC实验室推出了ReForm-Eval，一个用于综合评价大视觉言语模型的基准数据集。ReForm-Eval通过对已有的、不同任意情势的多模态基准数据集从事重构，建立了一个具有统一且适用于大模型评测情势的基准数据集。所建立的ReForm-Eval具有如下特点：建立了横跨8个评价维度，并为每个维度供应足量的评测数据（平均每个维度4000余条）；具有统一的评测题目情势（包括单选题和文本生成题…
理论
- 11
- 0
FudanDISC23年10月20日
AnchorDx通过鉴于深度进修的连续向量默示甲基化地区
编辑 | 萝卜皮基准调理（AnchorDx）成立于 2015 年，是一家国内领先的采用甲基化高通量测序进行癌症早筛早诊产物开发的公司。创始人范建兵博士是基因检测畛域的国内领军人物，拥有近 30 年从事人类基因组学、基因芯片（Microarrays）及高通量测序技术开发的经验。基准调理是中国首家将 ctDNA 甲基化高通量测序技术用于肿瘤早诊的企业，并自决构建了全球最大的中国人群癌症晚期甲基化数据库…
AI
- 8
- 0
ScienceAI21年12月30日
M1芯片搞数据科学好使吗？5种基准尝试给你答案
最近 M1 芯片爆火，它是否适用于数据科学？在常用基准上尝试一下就知道了。
AI
- 8
- 0
机器之心21年2月10日