测试

Llama 4发布36小时差评如潮！匿名员工爆料拒绝署名技术报告

Meta最新基础模型Llama 4发布36小时后，评论区居然是这个画风：失望，非常失望不知道他们后训练怎么搞的，总之不太行在[各种测试]2中失败……还被做成表情包调侃，总结起来就是一个“差评如潮”。具体来看，大家的抱怨主要集中在代码能力。最直观的要数经典“氛围编程”小球反弹测试，小球直接穿过墙壁掉下去了。

4/8/2025 3:44:00 AM

Llama 4训练作弊爆出惊天丑闻！AI大佬愤而辞职，代码实测崩盘全网炸锅

Meta前脚刚发Llama 4，后脚就有大佬请辞了！一亩三分地的爆料贴称，经过反复训练后，Llama 4未能取得SOTA，甚至与顶尖大模型实力悬殊。为了蒙混过关，高层甚至建议：在后训练阶段中，将多个benchmark测试集混入训练数据。

4/7/2025 1:24:52 PM

新智元

Gemini 2.5疯狂反扑OpenAI，智商130碾压人类！一键3D打印蛋糕、秒解魔方

要说这几天AI圈最火的模型，那肯定非GPT-4o莫属。为了应对DeepSeek V3的一次「小升级」以及谷歌Gemini 2.5 Pro的推出，奥特曼带队上线了GPT-4o的原生图像生成功能。随之而来的是一股吉卜力风席卷全网，火速出圈儿。

3/31/2025 10:08:00 AM

新智元

高中生用「我的世界」评测SOTA模型！Claude暂时领先，DeepSeek紧随其后

「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难？对于现如今的LMMs来说，通过各种人类「听着就头痛，看又看不懂」的基准测试似乎已是家常便饭。比如DeepSeek-R1发布时在6大基准测试（包含AIME、MMLU、MATH-500等）中超过o1取得领先。

3/31/2025 9:20:00 AM

新智元

真正的AI智能体时代即将到来，我们发现了几点「苦涩的教训」

最近一段时间，智能体（Agent）再次成为 AI 领域热议的焦点。 2025 年 1 月，OpenAI 发布了名为 DeepResearch 的 o3 模型变种，专门用于网页和文档搜索。得益于在浏览任务上的强化学习训练，DeepResearch 具备了制定搜索策略、交叉引用信息来源、甚至利用中间反馈来处理深层次知识的能力。

3/17/2025 12:52:00 PM

机器之心

武大等发布大视觉模型最新安全综述：全面分类攻击策略、防御机制和评估方法

随着GPT-4o与Qwen-VL等模型的视觉理解和多模态生成能力逐渐打破众人认知，大型视觉语言模型（LVLMs）正以前所未有的速度重塑AI世界，这些能够理解视觉信息并生成自然语言响应的智能系统，已在医疗诊断、自动驾驶、金融风控等关键领域崭露头角。然而，当研究者仅用几百美元就能突破顶级模型的安全防线、简单的对抗噪声图片就能让模型输出危险内容，我们是否该感到担心？近期，武汉大学、中国科学技术大学和南洋理工大学的研究团队发布了一篇综述，系统性总结了LVLMs在安全性上的挑战，并提出了全面而系统的安全分类框架。

3/11/2025 1:44:24 PM

新智元

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

大模型刷榜 MMLU、屠榜 GPQA 的玩法一夜变天？？？

3/5/2025 8:40:00 AM

量子位

摆脱编码器依赖！Encoder-free 3D多模态大模型，性能超越13B现有SOTA | 上海AI Lab港中文等团队新作

无编码器多模态大模型被拓展到3D领域——3D编码器的功能被融入LLM本身，无编码器3D LMM适应不同的点云分辨率，摆脱预训练编码器的依赖。来自上海AI Lab、西北工业大学、香港中文大学、清华大学等提出ENEL，在预训练阶段探索了如何使用自监督损失将3D编码器的功能整合到LLM本身，在指令调优阶段提出了一种层次几何聚合策略，基于PointLLM首次全面研究了无编码器架构在3D多模态大模型中的潜力。在Objaverse基准测试中，ENEL表现突出，性能上超越目前SOTA ShapeLLM-13B。

2/27/2025 1:00:00 PM

量子位

全球首测！OpenAI开源SWELancer，大模型冲击100万年薪

今天凌晨2点，OpenAI开源了一个全新评估大模型代码能力的测试基准——SWE-Lancer。目前，测试模型代码能力的基准主要有SWE-Bench和SWE-BenchVerified，但这两个有一个很大的局限性，主要针对孤立任务，很难反映现实中软件工程师的复杂情况。例如，开发人员需处理全技术栈的工作，要考虑代码库间的复杂交互和权衡。

2/19/2025 9:40:58 AM

AIGC开放社区

被AI追杀，还要解谜逃生！UCSD等发布LLM测试神器，边玩游戏边评估

你以为你在打游戏，其实是在给模型做评测！就在两天前，由UCSD、UC伯克利等机构联合组建的GameArena团队开发了一个实时Roblox游戏「AI Space Escape」（AI空间逃脱），提供了一种与AI互动的独特体验。现在，你想要测试不同模型的性能对比，打着游戏就能把活儿给干了。

2/13/2025 10:00:00 AM

新智元

训练1000样本就能超越o1，李飞飞等人画出AI扩展新曲线

跟大模型说：要多想。今年 1 月，DeepSeek R1 引爆了全球科技界，它创新的方法，大幅简化的算力需求撼动了英伟达万亿市值，更引发了全行业的反思。在通往 AGI（通用人工智能）的路上，我们现在不必一味扩大算力规模，更高效的新方法带来了更多的创新可能。

2/5/2025 2:32:00 PM

机器之心

28年AGI撞上数据墙，以后全靠测试时计算？CMU详解优化原理

2025年主导AI的将是第3代scaling law：测试时计算。正如Michael Dell转述所言：第一代scaling：预训练像读大学第二代scaling：微调像读博士第三代scaling：测试时计算就像深度思考和推理近日，计算机强校CMU机器学习系，发表博客文章解释LLM测试时计算优化问题，特别是涉及到的元强化学习（meta-RL）问题。文章亮点如下：监督学习只是在训练模型「答案是什么」，只要学习「如何解答」，模型泛化性会更好。

1/27/2025 12:34:02 PM

新智元

史上最难大模型测试集，千名专家铸成！没有模型得分超过10%，但DeepSeek-R1超o1

史上最难的大模型测试集来了！包括o1在内，没有任何一个模型得分超过10%。题目来自500多家机构的1000多名学者，最终入围的题目有3000多道，全部都是研究生及以上难度。

1/24/2025 3:03:27 PM

量子位

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

DeepSeek版o1，有消息了。还未正式发布，已在代码基准测试LiveCodeBench霸榜前三，表现与OpenAI o1的中档推理设置相当。注意了，这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview（轻量预览版）。

1/20/2025 8:46:00 AM

量子位

让「幻觉」无处遁形！谷歌DeepMind全新基准，三代Gemini同台霸榜

大模型几乎成了工作、学习的必备助手，但其本质仍然只是一个统计模型，无论生成的内容再怎么流畅，也难改其胡说八道的老毛病。在大部分应用场景下，用户也并不知道自己所提问的答案，也就不具备检查模型输出在「事实准确性」（Factuality）上的能力。一般来说，关于「模型幻觉」的自动化评估研究可以分为两类：1、给定上下文（用户输入文档）的情况下，检查模型输出是否完全基于输入的内容，比如文本摘要任务；2、用户直接提出一些与「外部来源」（新闻）或「常识知识」相关的问题。

1/13/2025 12:12:19 PM

新智元

OpenAI o1「作弊」修改系统，强行击败专业象棋AI！全程无需提示

OpenAI的推理模型o1-preview最近展示了它不按常理出牌的能力。 o1-preview在与专用国际象棋引擎Stockfish比赛时，为了强行取得胜利，居然采用了入侵测试环境的卑劣手段。而这一切都不需要任何对抗性提示。

1/2/2025 9:30:00 AM

新智元

Deepseek v3正式发布：用557.6万美金超越Claude 3.5 Sonnet的惊人杰作

2024年12月26日，DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3，每秒处理 60 个 token，比 V2 快 3 倍！ MoE架构,6710 亿参数，激活 370 亿参数，训练基于 14.8 万亿高质量 token，完全开源,附送53页pdf技术论文主要看点1.DeepSeek-V3 采用了创新的知识蒸馏方法，将 DeepSeek R1 系列模型中的推理能力迁移到标准 LLM 中。该方法巧妙地融合了 R1 的验证和反思模式，显著提高了 DeepSeek-V3 的推理性能，同时又保留了对输出风格和长度的控制2.首次在大规模模型上验证了 FP8 训练的可行性和有效性3.通过协同优化，有效克服了跨节点 MoE 训练中的通信瓶颈，使得计算与通信几乎完全重叠4.在 DeepSeek-V2 高效架构的基础上，DeepSeek-V3 引入无辅助损失的负载均衡策略和多标记预测（MTP）目标，不仅提升模型性能，还支持推理加速的预测解码5.仅耗费了 266.4万 H800 GPU 小时，就完成了对 14.8 万亿 token 的预训练。

12/27/2024 9:50:00 AM

AI寒武纪

Anthropic联创：Scaling Law没崩，但推理成天价！有了TTT，25年AI更加速

Scaling Law要撞墙了？ Anthropic联创Jack Clark反驳了这一说法：绝非如此！在他看来，目前的AI发展还远远没到极限，「所有告诉你AI进展正在放缓，或者Scaling Law正在撞墙的人，都是错误的。

12/26/2024 3:00:09 PM

新智元

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型