强化学习

全球开发者组团训练，首个异步强化学习32B推理模型震撼来袭！数据已开源

最近，全球第一个用去中心化强化学习训练的32B模型——INTELLECT-2正式发布！任何人都能用自己的异构计算资源参与，无需授权。这种全新的范式，让去中心化训练在编码、数学和科学领域，迈向前沿的推理性能。

4/27/2025 9:19:00 AM

新智元

TTS和TTT已过时？TTRL横空出世，推理模型摆脱「标注数据」依赖，性能暴涨

在大语言模型（LLMs）竞争日趋白热化的今天，「推理能力」已成为评判模型优劣的关键指标。 OpenAI 的 o 系列、Anthropic 的 Claude 和 DeepSeek-R1 等模型的惊艳表现背后，测试时缩放（TTS）技术功不可没。测试时缩放（TTS，Test-Time Scaling）是一种提升大语言模型推理能力的新兴策略，通过在测试阶段优化推理过程（如多数投票、蒙特卡洛树搜索等）提升大型语言模型（LLMs）的性能，而无需修改模型参数。

4/25/2025 9:12:00 AM

机器之心

Adam获时间检验奖！清华揭示保辛动力学本质，提出全新RAD优化器

ICLR（国际学习表征会议）是机器学习领域三大顶会之一，以推动深度学习基础理论和技术创新著称。每年，ICLR时间检验奖都会授予近十年对深度学习领域产生深远影响的里程碑式论文。今年这一殊荣花落Adam优化器（Adaptive Moment Estimation），该算法于2014年由OpenAI工程师Diederik Kingma和University of Toronto研究生Jimmy Ba提出。

4/24/2025 9:16:00 AM

新智元

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

清华和上交的最新论文中，上演了一场“学术打假”的戏码。文中研究者们对当前“纯 RL 有利于提升模型推理能力”的主流观点提出了相反的意见。通过一系列实验，他们证明引入强化学习的模型在某些任务中的表现，竟然不如未使用强化学习的模型。

4/23/2025 11:11:00 AM

郑佳美||梁丙鉴

UIUC联手谷歌发布Search-R1：大模型学会「边想边查」，推理、搜索无缝切换

本文的作者来自伊利诺伊大学香槟分校（UIUC）、马萨诸塞大学（UMass）和谷歌。本文的第一作者为 UIUC 博士生金博文，主要研究方向为与大语言模型相关的智能体、推理和强化学习研究。其余学生作者为 UMass 博士生曾翰偲和 UIUC 博士生岳真锐。

4/22/2025 9:06:00 AM

机器之心

更长思维并不等于更强推理性能，强化学习可以很简洁

今天早些时候，著名研究者和技术作家 Sebastian Raschka 发布了一条推文，解读了一篇来自 Wand AI 的强化学习研究，其中分析了推理模型生成较长响应的原因。他写到：「众所周知，推理模型通常会生成较长的响应，这会增加计算成本。现在，这篇新论文表明，这种行为源于强化学习的训练过程，而并非更高的准确度实际需要更长的答案。

4/14/2025 1:46:00 PM

机器之心

小鹏汽车推新物理大模型，定位AI汽车公司

近日，小鹏汽车创始人何小鹏在社交媒体上透露，作为将 “智能化” 作为核心的车企之一，小鹏汽车的本质定位在于 “AI 汽车公司”。他强调，人工智能（AI）最大的价值不仅在于数字世界的应用，更在于能够改变我们的物理世界。这一观点引发了行业内外的关注与讨论。

4/14/2025 11:01:07 AM

AI在线

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

「推理」已成为语言模型的下一个主要前沿领域，近期学术界和工业界都取得了突飞猛进的进展。在探索的过程中，一个核心的议题是：对于模型推理性能的提升来说，什么有效？什么无效？

4/13/2025 3:10:00 PM

机器之心

字节新推理模型逆袭DeepSeek，200B参数战胜671B，豆包史诗级加强？

字节最新深度思考模型，在数学、代码等多项推理任务中超过DeepSeek-R1了？而且参数规模更小。同样是MoE架构，字节新模型Seed-Thinking-v1.5有200B总参数和20B激活参数。

4/11/2025 12:10:33 PM

量子位

AI Agent 发展史：从 RL 驱动到大模型驱动｜AIR 2025

Manus 的出现将智能体推入当下 AI 格局的前列，使得这个过去略抽象的概念变得具体可感知。然而行业中也不乏对 Manus 的争议，认为 Manus 没有底层技术创新力，更多的是将现有技术融合从而在工程上创新，即所谓的“套壳”。虽说工程创新也是一种护城河，但“套壳”的说法也并非完全没道理。

4/9/2025 8:23:00 PM

王悦

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

基于规则的强化学习（RL/RFT）已成为替代 SFT 的高效方案，仅需少量样本即可提升模型在特定任务中的表现。该方法通过预定义奖励函数规避人工标注成本，如 DeepSeek-R1 在数学求解中的成功应用，以及多模态领域在图像定位等任务上的性能突破（通常使用 IOU 作为规则 reward）。 vivo 与香港中文大学的研究团队受到 DeepSeek-R1 的启发，首次将基于规则的强化学习（RL）应用到了 GUI 智能体领域。

4/8/2025 6:33:00 PM

机器之心

首次引入强化学习！火山引擎Q-Insight让画质理解迈向深度思考

从 GPT-4o 吉卜力风、即梦的 3D 动画、再到苹果 Vision Pro，AI 视觉创作正迎来生产力大爆炸。一个重要问题随之浮现：如何评估机器生成的画质符合人眼审美？人眼能瞬间辨别图像优劣，但教会机器理解「好看」却充满挑战。

4/8/2025 9:50:00 AM

机器之心

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

一个7B奖励模型搞定全学科，大模型强化学习不止数学和代码。 o1/r1的强化学习很强，但主要探索了数学和代码领域，因为这两个领域的数据结构化程度高，奖励函数/奖励模型比较好设计。那么，想提升大模型在其他学科领域的能力该怎么办？

4/3/2025 9:23:08 AM

量子位

业界突破多模态泛化推理能力，OPPO研究院&港科广提出OThink-MR1技术

用上动态强化学习，多模态大模型也能实现泛化推理了？来自OPPO研究院和港科广的科研人员提出了一项新技术——OThink-MR1，将强化学习扩展到多模态语言模型，帮助其更好地应对各种复杂任务和新场景。研究人员表示，这一技术使业界突破多模态泛化推理能力。

3/31/2025 9:22:00 AM

量子位

SWEET-RL：基于训练时信息的多轮LLM代理强化学习框架

SWEET-RL（Step-WisE Evaluation from Training-time information，基于训练时信息的逐步评估）是多轮大型语言模型（LLM）代理强化学习领域的重要技术进展。该算法相较于现有最先进的方法，成功率提升了6%，使Llama-3.1-8B等小型开源模型能够达到甚至超越GPT-4O等大型专有模型的性能水平。本文将深入分析SWEET-RL如何改进AI代理在复杂协作任务中的训练方法。

3/28/2025 10:16:15 AM

Jenray