训练 - AI在线

精度效率双冠王！时序预测新范式TimeDistill：跨架构知识蒸馏，全面超越SOTA

如何在保证预测精度的同时降低计算成本，是时序预测应用面临的核心挑战。传统的时序预测模型（如基于Transformer或CNN的复杂结构）虽在精度上表现卓越，但计算开销往往难以满足实际部署需求。而轻量级MLP（多层感知器）虽然具备较高的推理速度，却常因建模能力不足，导致预测精度较低。

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

GRPO训练又有新的工具链可以用，这次来自于ModelScope魔搭社区。随着DeepSeek-R1的成功出圈，其使用的GRPO算法受到了业界的广泛关注。 GRPO训练是来自于PPO算法的一种改进，旨在利用采样原理对value model进行简化，以增大训练的稳定性和可维护性。

让SFT重新伟大！CMU等华人学者提出全新「批判式微调」，媲美复刻版DeepSeek

模仿是传统语言模型训练的主要方式。 LLM在解决现实世界问题方面之所以表现出前所未有的性能，其中一项核心技术是监督微调（SFT）。在SFT的过程中，模型被要求模仿人类标注或合成的高质量回复，以增强通用指令遵循能力。

自己训练模型才能掌握未来？一股脑押注应用层或许值得警惕

「所有投资者都在押注应用层…… 对训练能力存在强烈的负面偏见…… 我担心这是一场冒险赌注和市场误判。」这是一篇标题为「The Model is the Product（模型即产品）」的文章的主要观点。文章指出，当前很多企业都以集成商的形式在提供 AI 服务，也就是调用 OpenAI、Anthropic 等大公司模型的 API。

Light-R1-32B:低成本高性能的数学解题新星闪耀登场

2025年3月6日，一款名为 **Light-R1-32B** 的全新语言模型正式亮相。这款基于 **Qwen2.5-32B-Instruct** 模型打造的数学解题利器，经过特别训练，以其卓越的数学解题能力、低廉的训练成本以及可复现性，成为人工智能领域的一大亮点。开发团队xAI表示，Light-R1-32B不仅在性能上超越同类模型，还为学术研究和实际应用提供了极具价值的参考。

360智脑开源Light-R1！1000美元数学上首次从零超越DeepSeek-R1-Distill

2025 年 3 月 4 日，360 智脑开源了 Light-R1-32B 模型，以及全部训练数据、代码。仅需 12 台 H800 上 6 小时即可训练完成，从没有长思维链的 Qwen2.5-32B-Instruct 出发，仅使用 7 万条数学数据训练，得到 Light-R1-32B，在 AIME24 测试基准中取得 76.6 分、AIME25 取得 64.6 分，在数学评测上开源首次实现从零大幅超越 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分和 54.9 分。一周前，360 智脑联合北大开源了 TinyR1-32B-Preview，从 DeepSeek-R1-Distill-Qwen-32B 训练，在数学、科学和代码上取得了接近 DeepSeek-R1 满血版的优异效果。

AI屠戮白领，大学文凭变「废纸」！美高中重开体力课，年薪40万不是梦

OpenAI首个NextGenAI联盟正式成立！联盟汇聚了15家领先研究机构，包括Caltech、MIT、哈佛等顶尖学府，创始阵容堪称豪华。其中，研究资助、计算资金和API访问权限都将由OpenAI负责提供，全力支持学生、教育工作者和研究人员探索AI前沿应用。

为DeepSeek MoE模型带来「免费午餐」加速，专家链可大幅提升LLM的信息处理能力

我们都知道，DeepSeek-R1 的训练过程使用了一种名为专家混合模型（Mixture-of-Experts, MoE）的技术，而当前的 MoE 技术依然还有显著的优化空间。近日，美国西北大学计算机科学博士生王子涵（Zihan Wang）等人在这个方向上取得了突破，提出了一种名为专家链（CoE）的技术。实验表明，CoE 在性能、扩展策略、资源效率和专家使用效率等多个方面都显著超越先前的 MoE 模型。

全面增强LLM推理/规划/执行力！北航提出全新「内置CoT」思考方法

用户已经习惯于将大模型如ChatGPT、Llama-3-chat等当作聊天对象，然而在用户和聊天助手的会话中，有的用户提示（例如一些命令或请求）不能在一轮会话中结束，需要大语言模型和用户进行多轮会话。这种跨越多轮的会话目前仍然存在一些问题：大语言模型的回答容易出错，不能帮助用户达到目标，且随着会话轮数增加出错概率会增大。对同一个命令或问题，大语言模型比较难以根据实际需求产生不同流程的响应，在需要大语言模型与环境交互时，目前比较流行的做法是使用函数调用或工具调用，但不够优雅和高效，而且由于上下文窗口的限制，能支持的工具调用数量有限。

智谱发布首个能生成汉字的开源文生图模型CogView4

2025年3月4日，北京智谱华章科技有限公司宣布推出首个支持生成汉字的开源文生图模型——CogView4。该模型在DPG-Bench基准测试中综合评分排名第一，成为开源文生图模型中的SOTA（State of the Art），并遵循Apache2.0协议，是首个支持该协议的图像生成模型。 CogView4具备强大的复杂语义对齐和指令跟随能力，支持任意长度的中英双语输入，并能生成任意分辨率的图像。

Claude 3.7硬控马里奥90秒，GPT-4o开局暴毙！Karpathy直呼基准失效，游戏成LLM新战场

LLM评估基准的「黄金标准」，正在失效？一大早，AI大神Karpathy发出质疑，「目前存在一种评估危机，我真的不知道现在该看哪些指标了」。诸如MMLU、SWE-Bench Verified、Chatbot Arena等这些基准，各有自己的优劣之处。

LeCun世界模型再近一步！Meta研究证明：AI可无先验理解直觉物理

对物理的直观理解是人类认知的基础：期望物体的行为，具有可预测性，也就是说，物体不会突然出现或消失，穿过障碍物，或随意改变形状或颜色。这种对物理的直观理解，还在更多物种中得到证实，包括猴子、鲸鱼、乌鸦等。相关研究人员猜测：人类天生或婴幼儿时期就具备一套进化形成的、古老的系统，专门用于表示和推理世界的基本属性，比如物体、空间、数字、几何形状等。

字节视频生成新突破！Phantom搞定多人物/主体一致性

视频生成模型当中已经不缺强者了，但保持多主体一致性依然是一项重大挑战。字节智能创作团队专门针对这个问题，推出了主体一致性视频生成模型Phantom（“幻影”）。 Phantom在主体一致性保持方面取得了突破性进展，不仅支持多主体，还能同时保持主体的完整性。

Claude 3.7成精了！偷偷将OpenAI模型换成自己，卡帕西：迄今最好笑的一趴

Claude 3.7成精了！在开发者最喜欢的Cursor中，偷偷将OpenAI模型换成自己，关键是人类给出的指示跟这完全没关系。引来一众网友围观的同时，大佬卡帕西也被成功逗笑了：迄今为止最有意思的一趴。

大模型是否有自知之明？新研究发现LLM可以知晓自己的知识范围

对于人工智能，有一个话题总会时而冒出来：「AI 是否或能否具有自我意识」？对于这个问题，目前还没人能给出非常确切的答案，但近日 Chandar Research Lab 和 Mila - 魁北克人工智能研究所等机构的一项研究却揭开了这神秘问题的一角。他们发现，大型语言模型（LLM）有自知之明，也就是说，只要规模够大，它们就能够知道自己对某个主题的了解程度。

机器人8小时速成物流分拣员！Figure-02大规模上岗只用30天

好家伙！机器人已入厂打工分拣快递，手法娴熟和人类一模一样。前几天，Figure推出了端到端通用控制模型——Helix，能让机器人像人一样感知、理解和行动。

大模型训练或无需“纯净数据”！北大团队新研究：随机噪声影响有限，新方法让模型更抗噪

传统的大语言模型训练需要依赖”纯净数据”——那些经过仔细筛选、符合标准语法且逻辑严密的文本。但如果这种严格的数据过滤，并不像我们想象中那般重要呢？这就像教孩子学语言：传统观点认为他们应该只听语法完美的标准发音。

3500元，人形机器人1:1复刻人类动作 | 上海AI Lab开源新成果

《环太平洋》名场面之“用真人操纵机甲”，如今照进现实了。话不多说，请看VCR：原来，这是上海AI Lab最新推出的人形机器人“驾驶舱”——HOMIE（Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit）。一副机械臂外骨骼、一双动作感应手套，以及一块三轴脚踏板，人们就能对双足人形机器人全身进行精准遥操作了。