模型

算法不重要，AI的下一个范式突破，「解锁」新数据源才是关键

众所周知，人工智能在过去十五年里取得了令人难以置信的进步，尤其是在最近五年。回顾一下人工智能的「四大发明」吧：深度神经网络→Transformer 语言模型→RLHF→推理，基本概括了 AI 领域发生的一切。我们有了深度神经网络（主要是图像识别系统），然后是文本分类器，然后是聊天机器人，现在我们又有了推理模型。

4/12/2025 3:57:00 PM

机器之心

字节新推理模型逆袭DeepSeek，200B参数战胜671B，豆包史诗级加强？

字节最新深度思考模型，在数学、代码等多项推理任务中超过DeepSeek-R1了？而且参数规模更小。同样是MoE架构，字节新模型Seed-Thinking-v1.5有200B总参数和20B激活参数。

4/11/2025 12:10:33 PM

量子位

Kimi 16B胜GPT-4o！开源视觉推理模型：MoE架构，推理时仅激活2.8B

刚刚，Kimi团队上新了！开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking，多模态和推理双双拿捏。按照Kimi官方的说法，其关键亮点如下：都是基于MoE架构，总参数为16B，但推理时仅激活2.8B；具备强大的多模态推理能力（媲美参数大10倍的模型）和Agent能力；支持128K上下文窗口；采用相对较为宽松的MIT许可证。

4/11/2025 9:10:00 AM

量子位

字节开源新生图模型：一个模型统一所有生图任务，多主体融合效果SOTA

利用字节团队魔改的FLUX模型，可以直接把多个参考主体放进一张图了。字节团队以FLUX为基础模型，提出了新的生图模型UNO，统一了图像生成任务中不同输入条件的处理。无论是单主体进行风格变换，还是不同物体的融合，UNO都能直接搞定。

4/11/2025 9:00:00 AM

量子位

UC伯克利华人开源14B「o3-mini」，代码版R1突袭OpenAI王座！

OpenAI o1/o3-mini级的推理模型，竟被抢先开源了？刚刚，来自UC伯克利和Together AI的联合团队，重磅推出了一款完全开源的代码推理模型——DeepCoder-14B-Preview。现在，只需要14B就可以拥有一个媲美o3-mini的本地模型，并且完全免费！

4/10/2025 10:02:43 AM

新智元

谷歌最新AI芯片打平英伟达B200，专为推理模型打造，最高配每秒42500000000000000000次浮点运算

谷歌首款AI推理特化版TPU芯片来了，专为深度思考模型打造。代号Ironwood，也就是TPU v7，FP8峰值算力4614TFlops，性能是2017年第二代TPU的3600倍，与2023年的第五代TPU比也有10倍。（为什么不对比第六代，咱也不知道，咱也不敢问。

4/10/2025 9:43:01 AM

量子位

剪枝60%不损性能！上海AI Lab提出高斯剪枝新方法，入选CVPR 2025

三维高斯泼溅（3D Gaussian Splatting）使得实时高质量渲染成为可能，是当前3D视觉领域最常用的算法之一。问题在于，基于显示高斯单元的表示方式，尽管可以高效溅射和光栅化，其密集化和优化过程却往往会生成冗余的高斯点，导致单个重建场景可能包含数百万个高斯点。这不仅降低了训练和渲染速度（本可能更快），还导致显著的内存消耗。

4/10/2025 9:38:37 AM

量子位

用梯度下降求解整数规划，中科大等提出无监督训练整数规划求解器新范式 | ICLR 2025 Spotlight

无监督学习训练整数规划求解器的新范式来了。中国科学技术大学王杰教授团队（MIRA Lab）提出了一种全新的整数规划求解方法——DiffILO（Differentiable Integer Linear Programming Optimization），相关论文已被人工智能顶级国际会议ICLR 2025接收为Spotlight。结果显示：与现有主流的监督学习方法对比，DiffILO不仅显著加快训练速度，还能生成更高质量的可行解。

4/10/2025 9:15:03 AM

量子位

首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距

统一多模态大模型（U-MLLMs）逐渐成为研究热点，近期GPT-4o，Gemini-2.0-flash都展现出了非凡的理解和生成能力，而且还能实现跨模态输入输出，比如图像文本输入，生成图像或文本。相比传统的多模态模型（比如 GPT-4V 或 DALL·E 3），这类模型在任务适应性和灵活性上更具优势。然而，当前研究领域还存在几个突出的问题：1.

4/10/2025 9:15:00 AM

量子位

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

世界模型领域最新进展，要比拼“世界生成”了。李飞飞吴佳俊团队提出了全面评测基准WorldScore，涵盖了三大类评估指标，动态静态都有涉及，其数据集中包含了3000个测试样例。并且，WorldScore将3D场景生成、4D场景生成和视频生成三类模型的评估，统一到了一起。

4/10/2025 9:10:00 AM

量子位

GPT开山一作，本科学历入职前CTO初创！OpenAI痛失「爱因斯坦级天才」

被Ilya感谢过，被奥特曼誉为「爱因斯坦级的天才」，在OpenAI更是「想要什么就给什么」——即便如此，去年12月，Alec Radford还是选择了离开。直到昨天，他的去向才确定。据Thinking Machine Lab官网更新，OpenAI前核心成员Alec Radford和Bob McGrew将担任公司顾问（Advisors）。

4/10/2025 9:00:00 AM

新智元

孪生世界动态仿真新突破！北大发布RainyGS：降雨/洪涝/风速精准可控

神经辐射场（NeRF）及三维高斯泼溅（3D Gaussian Splatting，3DGS）虽能构建静态数字孪生，却无法模拟真实世界的动态，不仅限制了虚拟现实和混合现实的真实感，也是智能训练与Real2Sim2Real范式突破的关键瓶颈。如何让数字孪生世界具备真实物理规律，实现可预测、可操控的动态环境，是自动驾驶、具身智能等空间智能应用亟待解决的核心挑战。为此，北京大学陈宝权教授研究团队提出RainyGS技术（合作者为楚梦渝、陈文拯助理教授，博士生戴启宇、倪星宇和本科生沈千帆），探索了一条通向「孪生世界动态仿真」的新路径。

4/9/2025 1:25:34 PM

新智元

5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持

今早，谷歌Deep Research迎来史上最强升级，正式搭载了Gemini 2.5 Pro全球顶尖模型。这一次，新版本在以下方面得到显著的提升：分析推理：逻辑更清晰，结论更有深度信息整合：从海量数据中快速提炼要点，化繁为简报告洞察力：生成的报告不仅详尽，还能提供独到的见解。谷歌CEO劈柴哥转发力挺。

4/9/2025 1:19:29 PM

新智元

论文党狂喜！alphaXiv推出Deep Research一秒搜遍arXiv，研究效率直接爆表

刚刚，alphaXiv 推出了新功能「Deep Research for arXiv」，该功能可协助研究人员更高效地在 arXiv 平台上进行学术论文的检索与阅读，显著提升文献检索及研究效率。体验链接：，当用户输入「Can you help me do a lit review for self-supervised learning. with relevant applications?」时，系统迅速生成了一篇内容完整、结构清晰的文献综述，并提供了 arXiv 链接。

4/9/2025 12:48:13 PM

机器之心

Llama 4五大疑点曝光，逐层扒皮！全球AI进步停滞，NYU教授称Scaling彻底结束

令人失望的Llama 4，只是前奏而已。接下来我们恐将看到——全球局势的改变，将彻底阻止AI进步！最近，一位AI CEO做出长视频，逐级对Llama 4身上的六大疑点进行了扒皮。

4/9/2025 10:11:57 AM

新智元

生图加入CoT，性能提升80%！微软港中文打造天才画手

AI绘画火爆的当下，大家都有过这样的体验：满心欢喜地输入一段描述，满心期待着生成超酷炫的图像，结果AI给出的作品却差强人意，不是没get到重点，就是细节各种「翻车」。今天要介绍的ImageGen-CoT技术，就像是给AI绘画开了「外挂」，让它变得超智能，创作更轻松！来自微软和港中文的华人研究者提出了ImageGen-CoT，用思维链（CoT）推理提升文本到图像上下文学习能力。

4/9/2025 9:10:00 AM

新智元

三个LLM顶一个OpenAI？2亿条性能记录加持，路由n个「小」模型逆袭

当前大模型研究面临三大困境：算力垄断（顶尖成果集中于大厂）、成本壁垒（单次训练成本高，可能需要数千GPU小时）以及技术路径单一化（过度依赖单一模型的规模扩展）。为突破这些限制，路由LLM（Routing LLM）范式应运而生——通过智能调度实现多个开源小模型的协同增效，以「组合创新」替代「规模竞赛」。代码：: ： level的MoE（Mixture-of-Experts），传统MoE通过在模型内部扩展专家网络（如稀疏激活的FFN层）提升性能，而路由LLM将完整LLM视为独立「专家」，通过预训练Router动态分配任务输入。

4/9/2025 9:00:00 AM

新智元

Llama 4在测试集上训练？内部员工、官方下场澄清，LeCun转发

Llama 4 这么大的节奏，Meta 终于绷不住了。本周二凌晨，Meta Gen AI 团队负责人发表了一份澄清说明（针对外界质疑「在测试集上训练」等问题），大佬 Yann LeCun 也进行了转发。很高兴能让大家用上 Llama 4，我们已经听说人们使用这些模型取得了很多出色的成果。

4/8/2025 1:12:49 PM

机器之心

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战模态编码器|CLIP详细解读 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI PandasAI：当数据分析遇上自然语言处理 50组多风格提示词，全面测评Midjourney V7生图效果！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science AI设计 3D Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI Copilot 人形机器人神器推荐具身智能 LLaMA 大语言模型字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构

模型

算法不重要，AI的下一个范式突破，「解锁」新数据源才是关键

字节新推理模型逆袭DeepSeek，200B参数战胜671B，豆包史诗级加强？

Kimi 16B胜GPT-4o！开源视觉推理模型：MoE架构，推理时仅激活2.8B

字节开源新生图模型：一个模型统一所有生图任务，多主体融合效果SOTA​

UC伯克利华人开源14B「o3-mini」，代码版R1突袭OpenAI王座！

谷歌最新AI芯片打平英伟达B200，专为推理模型打造，最高配每秒42500000000000000000次浮点运算

剪枝60%不损性能！上海AI Lab提出高斯剪枝新方法，入选CVPR 2025

用梯度下降求解整数规划，中科大等提出无监督训练整数规划求解器新范式 | ICLR 2025 Spotlight

首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

GPT开山一作，本科学历入职前CTO初创！OpenAI痛失「爱因斯坦级天才」

孪生世界动态仿真新突破！北大发布RainyGS：降雨/洪涝/风速精准可控

5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持

论文党狂喜！alphaXiv推出Deep Research一秒搜遍arXiv，研究效率直接爆表

Llama 4五大疑点曝光，逐层扒皮！全球AI进步停滞，NYU教授称Scaling彻底结束

生图加入CoT，性能提升80%！微软港中文打造天才画手

三个LLM顶一个OpenAI？2亿条性能记录加持，路由n个「小」模型逆袭

Llama 4在测试集上训练？内部员工、官方下场澄清，LeCun转发

字节开源新生图模型：一个模型统一所有生图任务，多主体融合效果SOTA