数据

最新万字长文！强化学习之父联合谷歌RL副总裁：未来不是靠强化学习算法而是「经验流」

就像Sam Altman 之前在博客文章中写的那样：回顾人工智能的发展，深度学习确实奏效了！现在强化学习正如火如荼，OpenAI o系列，DeepSeek R0都显示出了强化学习的巨大威力，人类生成的数据推动了人工智能的惊人进步，但接下来会发生什么？谷歌强化学习副总裁 David Silver与图灵奖获得者，强化学习之父Richard Sutton最新论文《Welcome to the Era of Experience》犹如《TheBitterLesson（苦涩的教训）》的续章给我们当头一棒：人类数据正在见顶，经验是下一个超级数据源，真正能推动AI跃升的数据，必须随模型变强而自动增长。

4/18/2025 10:01:41 AM

AI寒武纪

异议！顶流AI决战「逆转裁判」：o1险胜Gemini 2.5登顶、Llama 4零分垫底

当谈到AI为何能从「预测下一个词」中诞生智慧时，Ilya Sutskever曾用一个生动的比喻来解释。想象你在读一本悬疑小说，如果仅凭前面的线索就能在最后一页推断出罪犯是谁，那么你对这个故事的理解无疑是深刻的。同样，AI通过学习海量文本，掌握了从字面到语义的「线索」，展现出惊人的智能。

4/18/2025 9:07:00 AM

新智元

智能体版《苦涩的教训》，图灵奖得主Sutton、谷歌RL大佬Silver新作：超人智能靠经验

人类生成的数据推动了人工智能的惊人进步，但接下来会怎样呢？几天前，Google DeepMind 强化学习副总裁 David Silver 参与了一场播客访谈节目，探讨了如何从依赖人类数据的时代迈向自主学习的时代。与此同时，David Silver 和他的老师、2024 年图灵奖得主 Richard Sutton 合作撰写的论文《Welcome to the Era of Experience》称人们正站在人工智能新时代的门槛上，并有望达到前所未有的水平；同时展望了新一代智能体，认为它们将主要通过经验来学习，获得超越人类的能力。

4/17/2025 9:10:00 AM

机器之心

视频推理R1时刻，7B模型反超GPT-4o！港中文清华推出首个Video-R1

语言模型的推理刚火完，视频AI也开始「卷」起来了。这次出手的是港中文清华组合，直接把强化学习里的R1玩法搬到了视频领域，整出了全球首个视频版R1模型：Video-R1。别看它只有7B参数，但它在李飞飞提出的VSI-Bench基准中，竟然超越了GPT-4o！

4/16/2025 3:28:31 PM

新智元

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比关注前沿科技量子位 2025年04月15日 09:44

4.1与4.5孰大？ OpenAI刚刚给出答案：发布GPT-4.1，比GPT-4.5强的那种。新模型系列更新，一共带来三个版本：GPT-4.1，GPT-4.1 mini、GPT-4.1 nano——与通常中杯大杯超大杯的设置不同，这回翻译过来，是中杯、小杯、超小杯。

4/15/2025 9:50:06 AM

量子位

Gemini 2.5编程全球霸榜，谷歌重回AI王座！神秘模型曝光，奥特曼迎战

谷歌，彻底打了一场漂亮的翻身仗。 aider多语言编程基准测试显示，Gemini 2.5 Pro近出世半个多月，编程能力已经是全球第一，口碑一众超越Claude 3.7 Sonnet。不仅如此，除了DeepSeek，它的性价比也是最优的，成本低至6美金。

4/15/2025 9:03:00 AM

新智元

吉卜力爆红背后，关键推手另有其人！GPT-4o竟封奥特曼为AGI之王

AI版「三国杀」卡牌来了。 AI初创Nous Research联合创始人兼后训练负责人Teknium，有个好点子：把AI名流做成卡牌游戏怎么样？上周，他用GPT-4o生一堆AI流行人物卡牌，结果非常棒。

4/14/2025 9:25:00 AM

新智元

AI奥数大奖出炉，英伟达摘桂冠！14B破解34题暴击DeepSeek R1

第二届人工智能数学奥林匹克竞赛（AIMO2）开奖了！作为大赛顾问委员会的一员，陶哲轩激动地宣布了最新的结果——英伟达团队AI成功破解了34道题（共50题）。这一次，50道测试题保持了与AIMO1相同「数值答案」形式基础上，进一步提升了「抗暴力破解」的难度。

4/14/2025 9:15:00 AM

新智元

GPT-4.1偷偷开跑？神秘模型上线三天已被玩疯，网友发现大量OpenAI痕迹

上线仅三天的神秘模型，已经鲨疯了！大模型聚合平台OpenRouter新推出的Optimus Alpha，已经处理了772亿Token，平均每天超过200亿。并且这个数字还在上升，日Token处理已超过340亿，排名第二，并在Trending榜单上位列第一。

4/14/2025 9:00:00 AM

量子位

算法不重要，AI的下一个范式突破，「解锁」新数据源才是关键

众所周知，人工智能在过去十五年里取得了令人难以置信的进步，尤其是在最近五年。回顾一下人工智能的「四大发明」吧：深度神经网络→Transformer 语言模型→RLHF→推理，基本概括了 AI 领域发生的一切。我们有了深度神经网络（主要是图像识别系统），然后是文本分类器，然后是聊天机器人，现在我们又有了推理模型。

4/12/2025 3:57:00 PM

机器之心

预训练还没终结！港中文清华等提出「三位一体」框架，持续自我进化

当前（多模态）大模型正深陷「数据饥渴」困境：其性能高度依赖预训练阶段大量高质量（图文对齐）数据的支撑。然而，现实世界中这类高价值数据资源正在迅速耗尽，传统依赖真实数据驱动模型能力增长的路径已难以为继。在NeurIPS 2024会议上，OpenAI联合创始人Ilya Sutskever明确指出：「Pre-training as we know it will end」，这一判断是对传统预范式极限的清晰警示。

4/11/2025 9:35:34 AM

新智元

芯片设计效率提升2.5倍，中科大华为诺亚联合，用GNN+蒙特卡洛树搜索优化电路设计 | ICLR2025

芯片设计是现代科技的核心，逻辑优化（Logic Optimization, LO）作为芯片设计流程中的关键环节，其效率直接影响着芯片设计的整体性能。然而，传统逻辑优化算子由于存在大量无效和冗余的变换，导致优化过程耗时较长，成为制约芯片设计效率的主要瓶颈。为解决这一挑战，中科大王杰教授团队（MIRALab）和华为诺亚方舟实验室（HuaweiNoah’sArkLab）联合提出了基于神经符号函数挖掘的高效逻辑优化方法，显著提升传统关键逻辑优化算子运行效率最高达2.5倍。

4/10/2025 9:19:52 AM

量子位

用梯度下降求解整数规划，中科大等提出无监督训练整数规划求解器新范式 | ICLR 2025 Spotlight

无监督学习训练整数规划求解器的新范式来了。中国科学技术大学王杰教授团队（MIRA Lab）提出了一种全新的整数规划求解方法——DiffILO（Differentiable Integer Linear Programming Optimization），相关论文已被人工智能顶级国际会议ICLR 2025接收为Spotlight。结果显示：与现有主流的监督学习方法对比，DiffILO不仅显著加快训练速度，还能生成更高质量的可行解。

4/10/2025 9:15:03 AM

量子位

首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距

统一多模态大模型（U-MLLMs）逐渐成为研究热点，近期GPT-4o，Gemini-2.0-flash都展现出了非凡的理解和生成能力，而且还能实现跨模态输入输出，比如图像文本输入，生成图像或文本。相比传统的多模态模型（比如 GPT-4V 或 DALL·E 3），这类模型在任务适应性和灵活性上更具优势。然而，当前研究领域还存在几个突出的问题：1.

4/10/2025 9:15:00 AM

量子位

论文党狂喜！alphaXiv推出Deep Research一秒搜遍arXiv，研究效率直接爆表

刚刚，alphaXiv 推出了新功能「Deep Research for arXiv」，该功能可协助研究人员更高效地在 arXiv 平台上进行学术论文的检索与阅读，显著提升文献检索及研究效率。体验链接：，当用户输入「Can you help me do a lit review for self-supervised learning. with relevant applications?」时，系统迅速生成了一篇内容完整、结构清晰的文献综述，并提供了 arXiv 链接。

4/9/2025 12:48:13 PM

机器之心

三个LLM顶一个OpenAI？2亿条性能记录加持，路由n个「小」模型逆袭

当前大模型研究面临三大困境：算力垄断（顶尖成果集中于大厂）、成本壁垒（单次训练成本高，可能需要数千GPU小时）以及技术路径单一化（过度依赖单一模型的规模扩展）。为突破这些限制，路由LLM（Routing LLM）范式应运而生——通过智能调度实现多个开源小模型的协同增效，以「组合创新」替代「规模竞赛」。代码：: ： level的MoE（Mixture-of-Experts），传统MoE通过在模型内部扩展专家网络（如稀疏激活的FFN层）提升性能，而路由LLM将完整LLM视为独立「专家」，通过预训练Router动态分配任务输入。

4/9/2025 9:00:00 AM

新智元