评测

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

世界模型领域最新进展，要比拼“世界生成”了。李飞飞吴佳俊团队提出了全面评测基准WorldScore，涵盖了三大类评估指标，动态静态都有涉及，其数据集中包含了3000个测试样例。并且，WorldScore将3D场景生成、4D场景生成和视频生成三类模型的评估，统一到了一起。

4/10/2025 9:10:00 AM

量子位

原有的模型评测基准OUT了！12岁高中生建立了一个网站，让AI模型发起 Minecraft 挑战

编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）由于传统的AI 基准测试技术已被证明不够充分，AI 开发者开始采用更具创造性的方式来评估生成式 AI 模型的能力。对于一组开发者来说，这就是微软旗下的沙盒建造游戏 Minecraft。 Minecraft Benchmark （或 MC-Bench）网站是合作开发的，目的是让人工智能模型在面对面的挑战中相互竞争，用 Minecraft 创作来回答提示。

3/21/2025 1:05:18 PM

言征

智源发布FlagEval“百模”评测结果丈量模型生态变局

2024年12月19日，智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。相较于今年5月的模型能力全方位评估，本次智源评测扩展、丰富、细化了任务解决能力内涵，新增了数据处理、高级编程和工具调用的相关能力与任务；首次增加了面向真实金融量化交易场景的应用能力评估，测量大模型的收益优化和性能优化等能力；首次探索基于模型辩论的对比评估方式，对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。智源评测发现，2024年下半年大模型发展更聚焦综合能力提升与实际应用。

12/19/2024 6:00:00 PM

推理水平对标OpenAI o1！阿里云通义开源最新推理模型QwQ

11月28日，阿里云通义团队发布全新AI推理模型QwQ-32B-Preview，并同步开源。评测数据显示，预览版本的QwQ，已展现出研究生水平的科学推理能力，在数学和编程方面表现尤为出色，整体推理水平比肩OpenAI o1。 QwQ（Qwen with Questions）是通义千问Qwen大模型最新推出的实验性研究模型，也是阿里云首个开源的AI推理模型。

11/28/2024 5:31:00 PM

新闻助手

CAIL 2024 | 中国法律智能技术评测正式开启，诚邀您参与！

评测简介近年来，随着以裁判文书为代表的司法大数据不断公开，以及自然语言处理技术的不断突破，如何将人工智能技术应用在司法领域，辅助司法工作者提升案件处理的效率和公正性，逐渐成为法律智能研究的热点。中国法律智能技术评测CAIL(Challenge of AI in Law)旨在为研究者提供交叉学科的学术交流平台，推动自然语言处理、智能信息检索等人工智能技术在法律领域的应用，共同促进中国法律智能技术的创新发展，为科技赋能社会治理作出贡献。为了促进智能技术赋能司法，实现更高水平的数字正义，在最高人民法院和中国中文信息学会的指导下，从2018年起，CAIL已连续举办了六届中国法律智能技术评测，先后吸引了来自海内外高校、企业和组织的近5000支队伍参赛，成为中国法律智能技术评测的重要平台。

10/14/2024 2:10:00 PM

新闻助手

中国移动、电子标准院及 16 家重点央企发布《通用大模型评测标准》

感谢AI在线从中国移动官方获悉，在今天召开的 2024 中国移动全球合作伙伴大会期间，中国移动联合电子标准院及 16 家重点央企共同开展大模型评测体系建设工作，并发布《通用大模型评测标准》。据介绍，该标准是大模型评测体系建设的重要成果，为产业界遴选优质大模型提供重要参考依据。第一阶段将围绕通用领域和 4 个重点行业领域，从评测标准制定、评测基地建设、评测试点应用等方面开展工作。

10/12/2024 2:50:53 PM

清源

贾佳亚团队联手剑桥清华等共推评测新范式一秒侦破大模型“高分低能”

颠覆过往大模型评测标准，最新、最全、最权威的测评数据集MR-Ben来了！这是继今年4月发布堪称GPT-4 DALL- E-3的王炸产品超强视觉语言模型Mini-Gemini后，港中文贾佳亚团队再次提出的极具代表性的作品。在MR-Ben的“监督”下，大模型不仅要像学生那样会答题，还要像老师那样会阅卷，真实的推理能力无所遁形。MR-Ben细致地评测了不少国内外一线的开源和闭源模型，如GPT4-Turbo、Cluade3.5-Sonnet、Mistral-Large、Zhipu-GLM4、Moonshot-v1、Yi

7/18/2024 3:38:00 PM

新闻助手

有效评估Agent实际表现，新型在线评测框架WebCanvas来了

当 LLM Agent 踏入真实的在线网络世界时，它们的表现能否如预期般游刃有余？

7/17/2024 3:00:00 PM

机器之心

智源更新大模型排行榜：豆包大模型“客观评测”排名国产第一

6月中旬，智源研究院旗下的 FlagEval 大模型评测平台发布最新榜单：在有标准答案的“客观评测”中，GPT-4 以76.11分在闭源大模型中排名第一；Doubao-Pro（豆包大模型）以75.96分排名第二，同时也是得分最高的国产大模型；其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在开放问答等“主观评测”中，Doubao-Pro 同样排名第二，得分超过 GPT-4o 和 GPT-4。图：豆包大模型在 FlagEval 客观评测中获综合评分第二（2024年6月）FlagEval 大

6/19/2024 9:30:00 AM

新闻助手

豆包大模型披露评测成绩，较上一代“云雀”提升19%

近日，豆包大模型在火山引擎原动力大会上正式发布。以超低价格掀起大模型降价潮的同时，豆包的模型能力也引发行业关注。在火山引擎的一份产品资料中，豆包模型团队公布了一期内部测试结果：在 MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上，Doubao-pro-4k 的总分为76.8分，相比上一代模型云雀Skylark2 的64.5分提升了19%，也优于同期测试的其他国产模型。此次评测在今年5月完成，主要包括豆包通用模型-pro、云雀Skylark2 在内的九款国产大语言模型。除了云雀Skyla

5/24/2024 3:56:00 PM

新闻助手

最新中文大模型测评：百川智能 Baichuan 3 国内第一

感谢IT之家从百川大模型官方公众号获悉，今日国内大模型评测机构 SuperCLUE 发布了《中文大模型基准测评 2024 年度 4 月报告》，报告选取国内外具有代表性的 32 个大模型 4 月份的版本，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。报告显示，百川智能的 Baichuan 3 在国内大模型中排名第一，智谱 GLM-4、通义千问 2.1、文心一言 4.0、Moonshot (Kimi) 等大模型位列其后。从全球范围来看，国外同行的 GPT-4、Claude3 得分更胜一筹。SuperCLU

4/30/2024 7:43:20 PM

远洋

国内首个网络安全大模型评测平台SecBench发布

2024年1月19日，业界首个网络安全大模型评测平台SecBench正式发布，该平台由腾讯朱雀实验室和腾讯安全科恩实验室，联合腾讯混元大模型、清华大学江勇教授/夏树涛教授团队、香港理工大学罗夏朴教授研究团队、上海人工智能实验室OpenCompass团队共同建设，主要解决开源大模型在网络安全应用中安全能力的评估难题，旨在为大模型在安全领域的落地应用选择基座模型提供参考，加速大模型落地进程。同时，通过建设安全大模型评测基准，为安全大模型研发提供公平、公正、客观、全面的评测能力，推动安全大模型建设。行业首发，弥补大模型在

1/19/2024 2:11:00 PM

新闻助手

中文大语言模型赶考：商汤与上海AI Lab等新发布「书生·浦语」

今天，一年一度的高考正式拉开帷幕。

6/7/2023 2:48:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！全日程揭晓！ICLR 2025论文分享会我们北京见 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

评测

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

原有的模型评测基准OUT了！12岁高中生建立了一个网站， 让AI模型发起 Minecraft 挑战

智源发布FlagEval“百模”评测结果 丈量模型生态变局

推理水平对标OpenAI o1！阿里云通义开源最新推理模型QwQ

CAIL 2024 | 中国法律智能技术评测正式开启，诚邀您参与！

中国移动、电子标准院及 16 家重点央企发布《通用大模型评测标准》

贾佳亚团队联手剑桥清华等共推评测新范式 一秒侦破大模型“高分低能”

有效评估Agent实际表现，新型在线评测框架WebCanvas来了

智源更新大模型排行榜：豆包大模型“客观评测”排名国产第一

豆包大模型披露评测成绩，较上一代“云雀”提升19%

最新中文大模型测评：百川智能 Baichuan 3 国内第一

国内首个网络安全大模型评测平台SecBench发布

中文大语言模型赶考：商汤与上海AI Lab等新发布「书生·浦语」

原有的模型评测基准OUT了！12岁高中生建立了一个网站，让AI模型发起 Minecraft 挑战

智源发布FlagEval“百模”评测结果丈量模型生态变局

贾佳亚团队联手剑桥清华等共推评测新范式一秒侦破大模型“高分低能”