测试 - AI在线

Llama 4发布36小时差评如潮！匿名员工爆料拒绝署名技术报告

Meta最新基础模型Llama 4发布36小时后，评论区居然是这个画风：失望，非常失望不知道他们后训练怎么搞的，总之不太行在[各种测试]2中失败……还被做成表情包调侃，总结起来就是一个“差评如潮”。具体来看，大家的抱怨主要集中在代码能力。最直观的要数经典“氛围编程”小球反弹测试，小球直接穿过墙壁掉下去了。

Llama 4训练作弊爆出惊天丑闻！AI大佬愤而辞职，代码实测崩盘全网炸锅

Meta前脚刚发Llama 4，后脚就有大佬请辞了！一亩三分地的爆料贴称，经过反复训练后，Llama 4未能取得SOTA，甚至与顶尖大模型实力悬殊。为了蒙混过关，高层甚至建议：在后训练阶段中，将多个benchmark测试集混入训练数据。

Gemini 2.5疯狂反扑OpenAI，智商130碾压人类！一键3D打印蛋糕、秒解魔方

要说这几天AI圈最火的模型，那肯定非GPT-4o莫属。为了应对DeepSeek V3的一次「小升级」以及谷歌Gemini 2.5 Pro的推出，奥特曼带队上线了GPT-4o的原生图像生成功能。随之而来的是一股吉卜力风席卷全网，火速出圈儿。

高中生用「我的世界」评测SOTA模型！Claude暂时领先，DeepSeek紧随其后

「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难？对于现如今的LMMs来说，通过各种人类「听着就头痛，看又看不懂」的基准测试似乎已是家常便饭。比如DeepSeek-R1发布时在6大基准测试（包含AIME、MMLU、MATH-500等）中超过o1取得领先。

真正的AI智能体时代即将到来，我们发现了几点「苦涩的教训」

最近一段时间，智能体（Agent）再次成为 AI 领域热议的焦点。 2025 年 1 月，OpenAI 发布了名为 DeepResearch 的 o3 模型变种，专门用于网页和文档搜索。得益于在浏览任务上的强化学习训练，DeepResearch 具备了制定搜索策略、交叉引用信息来源、甚至利用中间反馈来处理深层次知识的能力。

武大等发布大视觉模型最新安全综述：全面分类攻击策略、防御机制和评估方法

随着GPT-4o与Qwen-VL等模型的视觉理解和多模态生成能力逐渐打破众人认知，大型视觉语言模型（LVLMs）正以前所未有的速度重塑AI世界，这些能够理解视觉信息并生成自然语言响应的智能系统，已在医疗诊断、自动驾驶、金融风控等关键领域崭露头角。然而，当研究者仅用几百美元就能突破顶级模型的安全防线、简单的对抗噪声图片就能让模型输出危险内容，我们是否该感到担心？近期，武汉大学、中国科学技术大学和南洋理工大学的研究团队发布了一篇综述，系统性总结了LVLMs在安全性上的挑战，并提出了全面而系统的安全分类框架。

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

大模型刷榜 MMLU、屠榜 GPQA 的玩法一夜变天？？？

摆脱编码器依赖！Encoder-free 3D多模态大模型，性能超越13B现有SOTA | 上海AI Lab港中文等团队新作

无编码器多模态大模型被拓展到3D领域——3D编码器的功能被融入LLM本身，无编码器3D LMM适应不同的点云分辨率，摆脱预训练编码器的依赖。来自上海AI Lab、西北工业大学、香港中文大学、清华大学等提出ENEL，在预训练阶段探索了如何使用自监督损失将3D编码器的功能整合到LLM本身，在指令调优阶段提出了一种层次几何聚合策略，基于PointLLM首次全面研究了无编码器架构在3D多模态大模型中的潜力。在Objaverse基准测试中，ENEL表现突出，性能上超越目前SOTA ShapeLLM-13B。

全球首测！OpenAI开源SWELancer，大模型冲击100万年薪

今天凌晨2点，OpenAI开源了一个全新评估大模型代码能力的测试基准——SWE-Lancer。目前，测试模型代码能力的基准主要有SWE-Bench和SWE-BenchVerified，但这两个有一个很大的局限性，主要针对孤立任务，很难反映现实中软件工程师的复杂情况。例如，开发人员需处理全技术栈的工作，要考虑代码库间的复杂交互和权衡。

被AI追杀，还要解谜逃生！UCSD等发布LLM测试神器，边玩游戏边评估

你以为你在打游戏，其实是在给模型做评测！就在两天前，由UCSD、UC伯克利等机构联合组建的GameArena团队开发了一个实时Roblox游戏「AI Space Escape」（AI空间逃脱），提供了一种与AI互动的独特体验。现在，你想要测试不同模型的性能对比，打着游戏就能把活儿给干了。

训练1000样本就能超越o1，李飞飞等人画出AI扩展新曲线

跟大模型说：要多想。今年 1 月，DeepSeek R1 引爆了全球科技界，它创新的方法，大幅简化的算力需求撼动了英伟达万亿市值，更引发了全行业的反思。在通往 AGI（通用人工智能）的路上，我们现在不必一味扩大算力规模，更高效的新方法带来了更多的创新可能。

28年AGI撞上数据墙，以后全靠测试时计算？CMU详解优化原理

2025年主导AI的将是第3代scaling law：测试时计算。正如Michael Dell转述所言：第一代scaling：预训练像读大学第二代scaling：微调像读博士第三代scaling：测试时计算就像深度思考和推理近日，计算机强校CMU机器学习系，发表博客文章解释LLM测试时计算优化问题，特别是涉及到的元强化学习（meta-RL）问题。文章亮点如下：监督学习只是在训练模型「答案是什么」，只要学习「如何解答」，模型泛化性会更好。

史上最难大模型测试集，千名专家铸成！没有模型得分超过10%，但DeepSeek-R1超o1

史上最难的大模型测试集来了！包括o1在内，没有任何一个模型得分超过10%。题目来自500多家机构的1000多名学者，最终入围的题目有3000多道，全部都是研究生及以上难度。

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

DeepSeek版o1，有消息了。还未正式发布，已在代码基准测试LiveCodeBench霸榜前三，表现与OpenAI o1的中档推理设置相当。注意了，这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview（轻量预览版）。

让「幻觉」无处遁形！谷歌DeepMind全新基准，三代Gemini同台霸榜

大模型几乎成了工作、学习的必备助手，但其本质仍然只是一个统计模型，无论生成的内容再怎么流畅，也难改其胡说八道的老毛病。在大部分应用场景下，用户也并不知道自己所提问的答案，也就不具备检查模型输出在「事实准确性」（Factuality）上的能力。一般来说，关于「模型幻觉」的自动化评估研究可以分为两类：1、给定上下文（用户输入文档）的情况下，检查模型输出是否完全基于输入的内容，比如文本摘要任务；2、用户直接提出一些与「外部来源」（新闻）或「常识知识」相关的问题。

OpenAI o1「作弊」修改系统，强行击败专业象棋AI！全程无需提示

OpenAI的推理模型o1-preview最近展示了它不按常理出牌的能力。 o1-preview在与专用国际象棋引擎Stockfish比赛时，为了强行取得胜利，居然采用了入侵测试环境的卑劣手段。而这一切都不需要任何对抗性提示。

Deepseek v3正式发布：用557.6万美金超越Claude 3.5 Sonnet的惊人杰作

2024年12月26日，DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3，每秒处理 60 个 token，比 V2 快 3 倍！ MoE架构,6710 亿参数，激活 370 亿参数，训练基于 14.8 万亿高质量 token，完全开源,附送53页pdf技术论文主要看点1.DeepSeek-V3 采用了创新的知识蒸馏方法，将 DeepSeek R1 系列模型中的推理能力迁移到标准 LLM 中。该方法巧妙地融合了 R1 的验证和反思模式，显著提高了 DeepSeek-V3 的推理性能，同时又保留了对输出风格和长度的控制2.首次在大规模模型上验证了 FP8 训练的可行性和有效性3.通过协同优化，有效克服了跨节点 MoE 训练中的通信瓶颈，使得计算与通信几乎完全重叠4.在 DeepSeek-V2 高效架构的基础上，DeepSeek-V3 引入无辅助损失的负载均衡策略和多标记预测（MTP）目标，不仅提升模型性能，还支持推理加速的预测解码5.仅耗费了 266.4万 H800 GPU 小时，就完成了对 14.8 万亿 token 的预训练。

Anthropic联创：Scaling Law没崩，但推理成天价！有了TTT，25年AI更加速

Scaling Law要撞墙了？ Anthropic联创Jack Clark反驳了这一说法：绝非如此！在他看来，目前的AI发展还远远没到极限，「所有告诉你AI进展正在放缓，或者Scaling Law正在撞墙的人，都是错误的。