UCL强化学习派：汪军与他的学生们

作者 | 赖文昕编辑 | 陈彩娴作为一支在 AI 领域历经数十年的研究分支，强化学习一直在历久弥新。从推荐系统到强化学习 2006 年暑假的一个午后，汪军踏上了从荷兰小城代尔夫特开往首都阿姆斯特丹的火车，他将在阿姆斯特丹换乘飞机，飞往美国西雅图参加第 29 届国际计算机协会信息检索大会（ACM SIGIR）。此时的信息检索领域如日中天，加上微软、雅虎和谷歌三巨头最核心的业务也是搜索，ACM SIGIR 每年都能汇集学术界与工业界的最高人才，来开一场信息检索界的“年会”。

作者 | 赖文昕

编辑 | 陈彩娴

作为一支在 AI 领域历经数十年的研究分支，强化学习一直在历久弥新。

从推荐系统到强化学习

2006 年暑假的一个午后，汪军踏上了从荷兰小城代尔夫特开往首都阿姆斯特丹的火车，他将在阿姆斯特丹换乘飞机，飞往美国西雅图参加第 29 届国际计算机协会信息检索大会（ACM SIGIR）。

此时的信息检索领域如日中天，加上微软、雅虎和谷歌三巨头最核心的业务也是搜索，ACM SIGIR 每年都能汇集学术界与工业界的最高人才，来开一场信息检索界的“年会”。

在华盛顿大学的会场里，汪军在一片掌声中获得了最佳博士联盟奖，于博士毕业的前一年拿下了信息检索领域博士的最高荣誉。

这位意气风发的青年此刻并未想到，自己将会在 15 年后再获得时间检验奖的荣誉提名——2021 年的汪军已转向强化学习（RL）数年，作为发起人之一成立了华人强化学习社区RL China，为国内强化学习研究培养了一批优秀的青年人才，成为领域的“一代宗师”。

UCL强化学习派：汪军与他的学生们

汪军

汪军出生于江苏南京，1993 年从金陵中学毕业后开始在东南大学攻读电子工程专业。本科毕业后，他先在工业界工作三年，又于 2000 年重返学术界，在新加坡国立大学计算机科学与技术系读研。

千禧年正值数字视频兴起，主要播放格式为 DVD、MPEG。彼时在计算机视觉领域占据主导地位的，是基于手工特征和传统机器学习算法的方法，如在图像匹配、分类等任务中取得了较好效果的 SIFT 特征、支持向量机等，神经网络则被认为是一个相对复杂和难以解释的 “黑盒” 。

此时汪军已开始运用神经网络开展计算机视觉领域的研究，师从印度教授、现新加坡国家人工智能中心副主席 Mohan Kankanhalli。

作为汪军学术生涯的首位伯乐，Kankanhalli 引领他进入学术圈，经常鼓励他自由探索，对其影响深远。在导师指导下，汪军的硕士论文聚焦通过不经过解码，直接利用神经网络从压缩视频中识别其中的模式、人脸、物体等内容。

2003 年硕士毕业后，汪军来到荷兰的代尔夫特理工大学读博，师从机器学习教授 Marcel J. T. Reinders，在其指导下开始参与 CACTUS 项目。

该项目核心关注在自组织无线环境里，通过个性化、智能且具备情境感知能力的可穿戴设备，解决人机交互与计算机网络交互在技术及可用性上的难题。其中一项关键内容为，依据用户当前状态，判断是否应推送不同信息。

作为一项推荐系统工作，该系统还与信息检索紧密关联，本质上源于其中最基本的用户需求。此需求可表现为关键词，如通过用户以往的兴趣爱好、历史浏览记录等寻找到新信息，结合已知与未知部分，其中衡量它们之间相关性的指标是核心所在。

随着研究推进，这个大项目范围逐步收窄，发展成为个性化推荐系统，汪军也在此过程中逐渐确认了自己对推荐系统与信息检索的兴趣。

博士期间，指导汪军学习主流信息检索知识的是荷兰信息检索领域的知名教授 Arjen P. de Vries，在他的牵线下，汪军结识了信息检索大牛 Stephen Robertson，并在 2006 年随之前往微软剑桥研究院实习。

Stephen Robertson 发明了搜索领域最出色的算法 BM25，该算法基于概率统计等原理创建了一种排名方法，在神经网络兴起前广泛应用于全球信息检索领域并主导着该领域的技术方向，在大多数情况下，只要合理使用其公式，搜索结果通常能达到较好的效果。

对汪军而言，Robertson 是自己的第二位伯乐。在微软剑桥研究院时，Robertson 常常同他讲解信息检索的核心知识，两人就统一模型（Unified Model）展开合作，在信息检索领域取得了不少理论突破。

过去传统的概率检索模型存在面向文档和面向查询两种不同的视角，统一模型则将两种视角统一起来，以创建一个更完善的检索模型。沿着这一道路开展推荐系统研究，汪军在博士阶段便逐渐涵盖了信息检索领域的所有基础问题。

获得 ACM SIGIR 2006 最佳博士联盟奖后不久，一心想做老师的汪军收到了伦敦大学学院（UCL）的 offer，并在 2007 年成为计算机系的一名讲师。

刚成为“青椒”的汪军正值想法丰富、动手能力强之际，立即启动了推荐系统方向的新研究。

此前 Robertson 曾提出概率排序原理（PRP），其核心为信息检索系统应按照文档与用户信息需求的相关概率降序对文档进行排序，以实现信息检索系统的整体有效性（如期望精度）最大化。

汪军认为此理论存在不足，还得考虑上不确定性，便创新地将经济学理论引入信息检索领域，在 2009 年发表了“Portfolio Theory of Information Retrieval”一文—— 11年后，此工作被 SIGIR 评为时间检验奖的第二名。

UCL强化学习派：汪军与他的学生们

论文链接：https://lintool.github.io/robust04-analysis-papers/p115-wang.pdf

简单来说，就像投资时“不把所有钱都投进一个篮子”，不能只买谷歌股票，还要买可口可乐或其他各类股票。搜索领域同理，比如当输入“jaguar”时，因无法确定其指汽车品牌捷豹还是动物美洲豹，最佳做法是让搜索结果多样化，排序时，第一条可排动物相关内容，第二条排车相关，第三个及后续结果也都要注重多样性。

与 PRP 相比，此方法的优势在于它突破了单一排名指标的局限，不仅考虑了文档相关度预测的不确定性，还考虑了检索文档之间的相关性，通过平衡排序列表的整体相关度和风险水平来进行文档排序，能更全面地处理文档排序问题，还从数学上量化了多样化的益处并有效降低排序风险。

这项工作完成后，汪军认为信息检索领域已无太多本质问题可研究，而互联网中的搜索推荐和广告推荐发展良好，且广告尤其吸引他。

虽然广告本质仍属信息检索范畴，但融入了如博弈论等经济因素。从收益最大化角度，广告推荐不仅要考虑相关性，还得兼顾经济价值，有时即便内容相关，若预算用尽也不会被推荐。于是，汪军开始研究广告竞价机制，如排名竞价、实时竞价。

在钻研的过程中，汪军发现：广告领域技术的本质就是强化学习。

一是做决策以最大化奖励，即最大化经济价值或奖惩收益。广告的目标是最大化用户互动以促购买，同时兼顾预算，在既定预算下追求最优表现，或在预算最小化时提升效果，这和强化学习思路一致。具体来说，用户从点击广告到真正购买中的延迟，就类似于AlphaGo下棋时当下决策影响未来收益，双方都涉及如何评估优化当下决策对未来的作用。

二是多智能体博弈。在广告领域，广告主间是排名竞价关系，例如当用户与鞋子相关的关键词时，众多卖鞋广告主都想投放广告，彼此竞争，这就是多智能体强化学习。

就这样，强化学习的种子埋在了汪军心里。

UCL 强化学习开拓者

2011 年，汪军升职为 UCL 的高级讲师，并迎来了一位热衷于围棋的新同事 David Silver。

David Silver 于 1998 年剑桥本科毕业后同好友 Demis Hassabis 共同创立电子游戏公司 Elixir Studios，又在 2004 年到阿尔伯塔大学攻读强化学习的博士，师从强化学习之父 Richard Sutton，期间发表了“在 9×9 计算机围棋中达到大师级水平” 的论文，其开发的 Mogo 程序是当时最强的围棋程序之一。

来到 UCL 后，Silver 延续RL在围棋上的应用，并受 Hassabis 之邀为 DeepMind 提供咨询，启动 AlphaGo 项目；而在隔壁办公室的汪军，则开始接触到RL在信息检索和排序中的应用，遂请 Silver 来担任学生 Marc Sloan 的二导。

两人常探讨强化学习的相关逻辑及它在搜索排序等问题中的应用，此时汪军虽对RL的理解还不深，但通过讨论逐渐觉得这个领域很有意思，便开始用它来探索在新兴交叉研究领域——计算广告市场中的应用。

和传统的监督学习相比，强化学习强调观察和反馈。计算广告生态系统中数据量大，开放性高，决策机会多，同时监管较弱，是绝佳的产学研相结合的平台。2012年，汪军的学生袁帅发表了一篇利用隐马尔可夫链选择广告的文章，揭开了团队将强化学习引入计算广告的序幕。

随着对计算广告市场的了解不断加深，汪军的视野也在快速拓展，新的火花在概念的连接中不断迸发出来。他的妻子在投行工作，在翻看其大学金融专业的教材时，汪军了解到二级市场、现货与期货市场等概念，由此联想到广告领域——广告通常是实时交易，没有未来市场，但实际上，大广告主常提前预定广告位，剩余不确定流量才放入实时竞价平台，类似期货市场。

汪军和学生陈博为据此研究出新的定价方法，创造了广告期货/期权的新产品。文章发表后，不但获得了最佳论文奖，也引起了在剑桥读 MBA 的 Rael Cline 的注意。Rael主动联系汪军提出合作，二人便于 2014 年夏天一起创办了 AI 广告公司 MediaGamma。袁帅和陈博为作为初创员工，一起加入了公司。

MediaGamma的故事延续了七年多时间。在这期间，这群充满乐观精神的学院派创业者尝试了很多主意：从一开始的广告期权交易所，到后来专为广告主服务的需方平台（Demand Side Platform），再到后来专注于开发算法系统，细致分解计算广告中的竞价过程，当然其中也包括了将RL算法应用于出价决策——这也是强化学习首次在广告实时交易中得以商用。

MediaGamma公司始于学术思维的结晶，慢慢发展成一个绝佳的试验场：它提供了开放的平台和数据，多样而实际的商业问题，给了汪军和学生们充分的挑战和锻炼。袁帅也从一名博士生和工程师，成长为公司数据科学业务的领头人。

MediaGamma也为汪军的硕士生、博士生提供了实习机会。其中一位，也是首位紧随他从推荐系统转向广告领域再到强化学习的得意门生，便是张伟楠。

2012 年 3 月，上海交大研一学生张伟楠读到汪军的一篇推荐系统论文，觉得思路新颖，当周就发邮件提问。他本科就读于 ACM 班，毕业前以第一作者完成三篇推荐系统相关论文，并在研一陆续发表。同汪军的交流让他获益匪浅，于是向交大了解留学交换事宜。

张伟楠原本计划本科毕业后出国，却因金融危机导致上一届学生出国情况不佳，大三时选择了保研，但他一直想多接触国际化环境与顶尖人才，也有师长建议从事科研最好有海外博士学位。思索再三，他觉得还是要出国深造，在和 ACM 班总教头俞勇沟通后，他决定未来学成回国为实验室出力。

UCL强化学习派：汪军与他的学生们

张伟楠

9 月，张伟楠抵达伦敦开启博士研究。博士刚开始，张伟楠的研究仍旧集中在推荐系统领域，与另一位博士生赵晓雪（现甲骨文首席数据科学家）合作研究了交互式推荐系统的序贯决策优化算法，并拓展了投资组合理论在投资推荐领域的应用。

张伟楠稳扎稳打、极有计划，在清楚自己目标外还会和导师同步自己的最新想法，让汪军特别放心。来到 UCL 第一年的某一天，张伟楠和汪军午饭后在校园外散步，汪军建议张伟楠做互联网广告。

当时互联网广告正兴起，学术界和产业界结合紧密，论文发表增多，新技术实时竞价广告（RTB）也刚出现，不仅要预测用户对广告的喜好，还需实时做出价决策——这个决策优化和多方博弈拍卖过程的本质，让强化学习研究变得重要。

起初张伟楠有些犹豫，虽然自己本科在微软亚洲研究院实习时发表过一篇广告竞价优化的论文，但因为学术界总是拿不到和价格相关的广告数据集，做广告相关的研究会很困难，因此博士第一年时仍主要做交互式推荐系统。

2013 年，汪军让他和学长袁帅合作，参加全球实时竞价广告算法大赛，二人获得最终赛季总冠军，在过程中接触到业界一手的关键广告出价数据，借此又发表了几篇论文。自此，张伟楠正式转向互联网广告竞价领域，博士论文主题也定为互联网广告出价算法而非推荐系统。

当时的主流是，实际优化广告出价时，常把建模做泛化和数值优化结合。前者捕捉数据规律模式，为后者提供出价范围和策略指导，后者在此基础上精细调整出价，实现更好的广告投放效果和经济效益。

汪军和张伟楠起初考虑用强化学习而非此方法，可全球强化学习仍处于“玩具”阶段，多是简单表格型，学术性强，不适用于广告这类实际领域。

直到 2013 年 12 月，David Silver 在 DeepMind 和团队发表了大名鼎鼎的 DQN 算法，首次成功将强化学习与深度学习结合，在Atari 2600游戏中超越人类水平——刚诞生的深度强化学习能处理更实际的任务。

此时在 UCL 研究RL的唯有汪军和 Silver 二人，DQN 算法吸引了一波机器学习牛人相继投入深度强化学习，其中就包括了微软剑桥研究院。在汪军建议下，张伟楠在 2014 年 9 月加入实习，跟随 Thore Graepel、Katja Hofmann 和 Ulrich Paquet，参与了为 Xbox 打造音乐推荐系统的项目。

三人如今均为RL大牛：Thore Graepel 在微软工作 12 年，曾开发 Windows 围棋游戏 AI，2015 年到 DeepMind 组建多智能体强化学习组，两年后发表该领域首篇文章，又带出 AlphaZero；Ulrich Paquet 任顶会 NeurIPS 2024 的程序主席；Katja Hofmann 则是微软RL的核心成员。

在三位的指导下，张伟楠对RL有了更深的理解。2016 年秋，他结束了三年多的博士生活回到母校上海交大任教，开始带学生钻研RL，是最早归国的RL学者之一。

汪军认为生成式对抗网络（GAN）颇具潜力，建议张伟楠朝此方向探索。几人提出了结合GAN和RL的思路：由于离散数据无法像图片或语音那样直接求导，传统GAN方法难以直接应用，而强化学习中的策略梯度算法天然适合处理离散数据，因为它可以直接优化离散动作分布，从分布层面调整结果。

就这样，张伟楠同学生于澜涛、导师汪军、俞勇一起创新性地将策略梯度方法应用于离散数据生成（如文本和音符），在 AAAI 2017 发表SeqGAN，获得极大的关注，目前引用次数已超3000。

值得一提的是，现在已成为范式的基于人类反馈的强化学习（RLHF）同SeqGAN背后的思考逻辑出奇一致，都是通过RL方法优化生成模型，利用外部反馈信号（判别器或人类反馈）解决离散数据生成的挑战。

UCL强化学习派：汪军与他的学生们

论文链接：https://arxiv.org/abs/1609.05473

同年，师生二人还合作了 IRGAN，汪军提出将 GAN 和 RL 结合，在信息检索领域提出了一种创新的生成式方法：与只使用生成模型或判别模型的传统方法不同，IRGAN框架通过GAN的思想将双方统一在一个对抗性训练框架中，通过对抗性训练融合了彼此的优点，对于生成器采用了基于策略梯度的RL来训练，在三种典型的信息检索任务上（四个数据集）得到了更显著的效果——作为 SIGIR 2017 唯一的满分论文，IRGAN 还被提名为最佳论文。

多智能体：“三折叠”黑盒

与卷文章的实验室风格不同，汪军会在给予整体方向指导、亲自推导公式、探索新课题之余，让每个学生自由探索自己感兴趣的领域。

不少学生与他的初见在伦敦泰特现代艺术馆。汪军会先带学生看展，再坐下来喝咖啡，告诉他们做研究就像欣赏艺术品一样，读博第一年不必急于出成果，探索兴趣、明确问题，远比发论文更有价值。

除了让读博充满乐趣外，在温颖、杨耀东看来，导师汪军的学术品位极高，总能先人一步探索有潜力的方向。

转向强化学习后，汪军选择了鲜少人涉足的多智能体领域，最核心的原因是其在互联网广告领域的经验：广告主竞拍广告位就是典型的多智能体博弈场景。

深度学习神经网络本就是黑盒，深度强化学习在其基础上增加了环境动态交互的黑盒，多智能体强化学习又在这两层黑盒之上加入多智能体博弈的黑盒，难以把握博弈收敛的纳什均衡点，是最难的学习范式。

*纳什均衡点是博弈中各参与者策略组合达到的稳定状态，即任何参与者单方面改变策略都无法使自身获益，以“囚徒困境”中两囚徒都坦白的策略组合为例，它在多领域被用于分析博弈行为与预测结果。

第一个跟随汪军钻研多智能体的学生是温颖。

温颖 2015 年本科毕业于北京邮电大学的电子商务及法律专业，因学校整体偏通信与计算机的氛围，所学内容涵盖计算机、通信、经管等多领域知识，因此曾跟着软件工程和计算机学院老师做过不少数据挖掘、复杂网络分析的科研项目，是位不拘小节的编程大牛。

保研清华后，温颖先后在百度、亚马逊等大厂研发部实习，在了解国内码农工作模式后，又萌生了出国看看的想法。2015 年 7 月，他赶在硕士项目申请季截止（当时唯一未截止的项目是 UCL）前提交申请。刚在清华报到交完学费，温颖就收到 UCL 录取邮件，于是放弃保研机会，火速办理签证，在 10 月 UCL 报到截止前一天抵达了伦敦。

UCL强化学习派：汪军与他的学生们

温颖

此时英伟达推出Titan X GPU使算力大幅提升，CUDA 生态变好，谷歌也刚推出深度学习框架 TensorFlow，深度学习得以在学术界大规模兴起。

温颖的硕士方向为网络科学与大数据分析，汪军是其项目主任，张伟楠也会指导他做研究。师兄弟二人初见时，张伟楠还拿着刚打印出来的 TensorFlow 使用文档，称它为未来的方向。

硕士的一年间，温颖跟张伟楠一起尝试用深度学习做计算广告、自然语言理解，温颖出色的编程和工程能力让张伟楠印象深刻，便推荐他加入汪军组读博。

对于是否继续深造，温颖起初因学费高昂而犹豫，在争取到学院的Feldman计算统计奖学金（EU/UK费率）后，汪军又提出让他去 Media Gamma 实习，让公司帮他出剩下的学费（国际学生学费），就这样，温颖于 2016 年秋留在 UCL 读博。

此时汪军刚升为教授，有更多的资源“搞点大事”，便决定正式让学生们主攻多智能体强化学习，将博弈思想融入其中。

年初 AlphaGo 问世后，温颖听了 David Silver 的讲座深受触动，与汪军确定该方向，成为其首个研究多智能体的学生。

UCL强化学习派：汪军与他的学生们

2016年的一场学术会议上，汪军结识了彼时为阿里认知计算实验室负责人的袁泉，二人都对多智能体很感兴趣，便决定让俩团队围绕星际争霸游戏开展合作，温颖也因其出色的工程能力成为项目主力。

2017年秋，团队推出多智能体双向协调网络BiCNet，专注于复杂环境中的协同与竞争策略优化，在星际争霸游戏中它通过双向通信，建模智能体间的相互影响，使智能体能够学习协同作战、资源分配和战术决策，并通过生成多样化策略池确保在面对不同对手时快速适应并做出最优决策。

UCL强化学习派：汪军与他的学生们

论文链接：https://arxiv.org/pdf/1703.10069

可惜的是，尽管BiCNet比2019年发布的AlphaStar要早上两年，但因只聚焦星际争霸的小规模对战，且没有足够的资源去扩展规模做全局游戏，未能获得更大的影响力。不过，袁泉也在此项目后离开阿里创立启元世界，并在2020年6月发布AI智能体，使其成为继DeepMind后全球唯二用AI击败人类选手的企业。

此后，温颖的研究聚焦于多智能体之间的相互影响建模，将认知层次应用于多智能体强化学习，帮助智能体在合作场景中制定更优策略；关注策略之间的相互影响，通过探索策略空间，使智能体在接触丰富策略后学到最佳应对策略，从而保证性能下限——这种建模方法在微观和宏观层面都显著提升了多智能体系统的表现。

随着温颖一同加入汪军组读博的是杨耀东。

2013 年，杨耀东在中国科学技术大学电子工程与信息科学系本科毕业后，来到帝国理工学院深造。毕业后，他就职于美国国际集团（AIG）科学部门开发由机器学习风险定价模型。

在加入UCL前，他对深度学习极有热情，2015年在一次AIG资助的位于爱丁堡大学主办的深度学习研讨会上结识了张伟楠，以爱好者的身份请教最新技术动态。后经张伟楠推荐，到汪军组读博。

UCL强化学习派：汪军与他的学生们

杨耀东

进组后，杨耀东的第一篇论文探索如何用RL和多智能体系统模拟自然界捕食者与猎物间的动态关系，如狼与兔的周期性循环。与传统依赖微分方程的方法不同，他通过RL让智能体自主决策，仿真自然行为轨迹。这项工作让他深刻体会到RL的魅力，认为其从决策角度逼近真实人类社会，也奠定了他多智能体强化学习的研究方向。

这项工作完成后，杨耀东和汪军讨论新课题时发现：少量智能体的情况较为简单，但若数量增加到成百上千甚至上万后，缺少“C位”角色主导的情况将极为复杂。

面对这个问题，杨耀东提出引入“平均场博弈（Mean Field Game）”理论来解决。以股票市场为例，每个投资者的行为复杂且相互影响，但通过平均场方法，可以将所有投资者视为一个整体，计算群体的统计行为，并假设个体行为受群体行为影响，这种方法通过动态迭代关系描述个体与群体之间的相互作用。

杨耀东是第一个将平均场博弈引入机器学习的学者，首创平均场论RL算法（Mean Field MARL），通过将大规模智能体系统（百万级）简化为群体行为模型，成功降低了计算复杂度，为处理超大规模多智能体系统提供了新的理论框架和实用工具。

这一创新在多智能体强化学习领域具有重要意义，中了顶会ICML 2018的Oral。杨耀东反应敏捷、掌握的知识非常丰富，汪军曾夸赞他“很少有不知道的paper，有时比我知道的还多。”六年以后，杨耀东持续相关领域研究，并指导学生完成了多智能体强化学习领域华人首篇Nature Machine Intelligence。

UCL强化学习派：汪军与他的学生们

在ICML 2018会议现场与Mean Field RL展板合照

论文链接：http://proceedings.mlr.press/v80/yang18d/yang18d.pdf

除了温、杨二人外，张海峰和田政也是在2016年加入了汪军组。

张海峰2012年本科毕业于北大后继续留校读博，师从李文新教授研究游戏智能体，主要接触蒙特卡洛树搜索等传统算法。2017年，他到UCL交换，与汪军合作研究博弈环境生成，利用RL自动生成游戏关卡，并在IJCAI发表论文。2018年博士毕业后，他再到汪军组做博士后，提出双层RL模型，用于多智能体系统中的斯塔克尔伯格均衡（Stackelberg Game），以自动驾驶为例研究车辆并道决策。

田政本硕均在UCL就读，博士期间先研究“快思慢想”理论，提出类似AlphaZero的RL算法EXIT，在棋盘游戏Hex中击败AI程序MOHEX 1.0。加入汪军团队后，他专注于多智能体强化学习，特别是桥牌叫牌策略，通过叫牌传递隐藏信息并合作取得优势。

UCL强化学习派：汪军与他的学生们

张海峰、田政

陈旭和杜雅丽则在2019年加入汪军组做博士后。

陈旭在清华博士期间专攻信息检索和推荐系统，被汪军2017年发表的IRGAN所吸引，十分欣赏利用对抗学习来提升信息检索性能的想法，于是选择加入UCL做博士后研究员。

加入汪军实验室后，他一方面拓展强化学习理论，将离散时间马尔可夫决策过程延伸至连续时间半马尔可夫决策过程，并扩展有限时间界至连续时间界；另一方面，他将强化学习应用于推荐算法，针对用户多维度兴趣问题，如旅客对酒店的多维度评价，提出基于多目标优化的强化学习算法，将用户行为建模为序列决策过程，实现动态多目标策略优化。

杜雅丽在悉尼科技大学读博，博士后期时在腾讯AI Lab实习，研究强化学习在星际争霸中的应用，尤其是多智能体的微操控制。来到UCL后，她聚焦于多智能体通信网络构建、多智能体能力评估等研究，也和温颖合作探索强化学习在游戏的应用。

UCL强化学习派：汪军与他的学生们

陈旭、杜雅丽

汪军对学生们的一大影响是对学术的执著追求与前瞻性。张海峰评价，汪军总能提出新颖想法，虽部分想法超前，但激励学生深入探索、调研并完善，因此能在单智能体应用盛行时，率先投身多智能体强化学习研究，终成开路人。

在学生培养上，汪军老师会根据学生兴趣细分研究领域，如陈旭侧重RL在推荐系统的应用，张海峰关注博弈，杜雅丽和温颖聚焦游戏领域等等。

张伟楠形容汪军“像李白一样洒脱随性”，他记得，汪军不热衷申请项目、周旋于会议和同行间，经费虽不宽裕，作为大牛却始终坚守科研一线推导公式、指导学生，“有着低调做人、高调做事的处世哲学。”杨耀东形容。

UCL强化学习派：汪军与他的学生们

每周一次的深度学习研讨会

UCL强化学习派：汪军与他的学生们

在UCL, Bloomsbury Campus

本土崛起

强化学习在国内真正开始受重视始于2016年AlphaGO战胜李世石的那一刻。

这一年，张伟楠回到母校上海交大任教，既和汪军继续保持合作推进SeqGAN和IRGAN，也开始带学生钻研强化学习。

此时国内开设RL课程的高校寥寥无几，更没有系统教材和足够的老师，张伟楠便常在夏令营等非正式场合和学生们讲解RL的基础理论与前沿论文，还在2018年暑期邀请汪军来到上交大授课，讲RL、多智能体博弈论及其最新应用。

UCL强化学习派：汪军与他的学生们

但这显然不够，学习材料和老师的稀缺让学生们只能在摸索中前行，直至 2019 年，情况才迎来实质性转变。

9月，UCL 人工智能中心正式成立，随即与 DeepMind 深化合作。DeepMind 研究员担纲RL课程，汪军则负责后续的多智能体课。

了解国内情况后，汪军萌生了举办免费线上夏令营的想法，希望将自己在UCL中教授的内容推广开来，帮助中国学子更好地学习RL并深入了解此学术领域。

在和学生们的微信群里，汪军分享了这个主意，众人积极献策，提出各种命名建议。经过一番讨论，最终定下了张伟楠提议的“RL China”这个名字。

RL China由汪军发起，在早期推广中由张伟楠和张海峰负责拉人，张海峰还负责安排日程、发布报名通知等具体运营。

2019年底张海峰回国，次年在汪军的引荐下加入中科院自动化研究所，成立了专注于多智能体研究的群体决策智能团队，强化了自动化所彼时未及NLP、图像那般繁荣的博弈决策研究。

半年后，RL China第一届暑期课推出，除了张伟楠、张海峰与杨耀东这三位汪军的学生外，北大卢宗青、天津大学郝建业、新加坡南洋理工大学安波、南京大学俞扬和清华张崇洁等人也受邀参与其中，为报名的同学无偿直播讲课。

UCL强化学习派：汪军与他的学生们

反响热烈的首期RL China让汪军等人确信此活动的必要性，又在2021年扩大了规模，国内外的授课教师数量增至三十余位，课程涵盖强化学习、博弈论、多智能体等，还有华为等企业的应用类课堂。

除了举办年度论坛之外，RLChina每周还组织学生研讨，由国内外十几个强化学习研究团队轮流主持，直播平台上的观看人数最高时能达十万人次。

张海峰一直负责组织RLChina的各项活动，他认为投入精力在国内推广RL意义重大，“因为它能聚集年轻教师和学生交流，加强学术界与产业界联系。”

UCL强化学习派：汪军与他的学生们

与此同时，国内的RL教材也不再局限于搬运海外论文，而是逐步平衡好理论和实操。

张伟楠自2019年在交大开设RL课程后，有不少学生反映课后编程实践与课堂内容存在明显脱节，在课上证明了策略梯度定理和学习了策略梯度算法后，课后作业仍难以自己写代码实现策略并在游戏环境中获得高分。

为解决这一问题，张伟楠借鉴了ACM班学长李沐出版深度学习书籍的方式，采用相似的形式编写强化学习教案，每介绍一种方法，先讲解原理和公式推导，再附上可运行的Python代码，学生可在网页上直接运行代码并查看结果，即时验证所学原理。

在ACM班创始人俞勇的鼓励下，张伟楠和助教们将经过几年迭代的讲义和代码作业整理成书，于2022年5月出版了《动手学强化学习》，此书至今销量已超2.5万册，年销量在全国强化学习领域排名第一。

而除了教学外，汪军与他的学生们对RL在具体领域的应用探索，同样为RL的本土崛起出了一份力，尤其是RL和大模型及具身智能领域的结合。

回到2019年，汪军担任了华为诺亚方舟实验室的决策推理首席科学家，为华为内部业务如5G网络控制和自动驾驶仿真提供多智能体解决方案，杨耀东和温颖也先后加入，参与了内部名为“LANDING RL（强化学习落地）”的大项目，项目最终虽没成功，但几人对强化学习落地场景的瓶颈都有了新的认识。

2020 年 6 月，GPT-3 问世。汪军注意到，大模型的Transformer架构具有自回归形式和良好的通用泛化性，恰好可以解决传统RL在不同环境策略间的迁移存在的泛化难题。

于是在2021年，汪军召集了张伟楠、杨耀东和温颖三人，开始筹集资金，决定以创业的形式启动大模型研究——训练决策大模型极消耗资源，需投入海量算力。

他们希望构建通用决策模型而非语言模型，所开发的“多智能体Transformer（MAT）”输入和输出更复杂，包括图像、连续值（如机械臂关节状态）、文本和离散动作，初步成果还发表在了NeurIPS 2022。

UCL强化学习派：汪军与他的学生们

项目链接：https://sites.google.com/view/multi-agent-transformer

在MAT基础上，团队22年进一步推出了数字大脑决策大模型（DB1），进一步验证了预训练模型在文本、图 - 文、强化学习决策、运筹优化决策方面应用的潜力。尽管DB1模型参数量达十多亿，数据量达100T，但并未实现预期同语言模型一般的泛化效果。

问题在于，不同模态数据的信息力度难以对齐，理论上需要长段连续数据才能提取语义信息，而他们直接将数据强行输入同一维度，虽在几百个任务上有效，但未能实现跨模态或组合泛化，这也是DeepMind同年推出的通才大模型Gato同样没能解决的问题。

同期，在自动化所的张海峰也和汪军合作了端到端决策大模型的工作，具体涉及机械臂操控、星际争霸游戏仿真、运筹优化等跨度较大的领域，剑指通用大模型。可以说，汪军等人所探索的，就是如今具身智能的雏形。

张海峰认为汪军既具超前想法又重落地性，“他2017年就关注机器意识，2021年做决策大模型，领先行业数年。通常有超前想法的人不太考虑落地，但汪老师与产业界联系紧密，无论是与华为等企业合作还是个人创业，都显示他对产业界的熟悉。”

在汪军的一众学生中，扎根具身智能最深的当属杨耀东。

博士毕业期间，杨耀东先在华为诺亚方舟实验室从事RL研究，随后又到伦敦国王学院（KCL）任助理教授，并在2022年1月回国加入北大人工智能研究院任教。

谈及跳出舒适区涉足硬件的原因，杨耀东表示，只将RL应用于游戏并非智能的最终形态，无法推动行业发展；而双手作为人的智慧终端，智能体难以比拟，且根据莫拉维克悖论，即机器人处理复杂任务容易，执行简单日常动作却困难；更重要的是，在试验中用RL做灵巧手操作能实现儿童精细运动技能评估量表的极多操作，也证实了其可行性。

受北京市科委资助，他牵头了《基于认知推理的具身智能可泛化灵巧操作技术研究》并与同年龄段的北大助理教授朱毅鑫、董豪、王鹤一起探索类人灵巧双手操作。

半年后，团队实现了第一个双手抛接球demo，杨耀东立刻给汪军发了一条微信，分享真正把多智能体强化学习用到真实场景中的喜悦，“让AI控制高自由度的机械手达到人的灵巧度十分不容易。”此时距离智元机器人和银河通用的正式成立还有一年多的时间，用RL实现灵巧手操作也尚未成为产业共识。

通往AGI的最后一公里

强化学习在过去十年中经历了从爆发式兴起到反思调整，再到技术突破与场景落地的完整周期。

2016年，AlphaGo击败围棋世界冠军李世石，成为人工智能史上的里程碑，其结合蒙特卡洛树搜索与深度强化学习的技术引发全球关注，推动学术界和工业界对RL的广泛投入。

然而，随着技术热潮褪去，2016年至2019年间，RL逐渐暴露出采样效率低下、真实场景应用成本高昂等问题。例如，训练一个游戏智能体需数百万次交互，而机器人领域的实验可能因策略错误导致设备损坏，单次实验成本高达数十万美元。这一时期，研究者开始转向离线强化学习（如BCQ、CQL算法）以降低交互成本，同时探索分层强化学习（如FeUdal Networks）和多智能体协作（如MADDPG）来应对复杂任务。

2019年后，RL进入复苏与扩展阶段，并开始渗透至真实场景：OpenAI的Dactyl（2019）通过RL训练机械手完成精细操作，波士顿动力将其应用于四足机器人运动优化；Waymo等公司将RL用于自动驾驶决策系统，处理复杂交通场景；阿里、谷歌通过RL优化动态推荐策略等等。

不难发现，作为最早涉足RL的华人学者，汪军及其学生一脉同样沿袭了相似的发展脉络，带领着中国RL逐步追赶上国际最前沿。

2022年底，横空出世的ChatGPT更是为这群高歌猛进的RL信徒们注入了一剂强心针，众人在RL与大模型技术融合的新趋势中开始发力。

汪军首先让公司全面转向以语言模型为中心的决策智能体，但仍希望实现决策任务而非仅文本生成，其研发的语言智能体已具备基础对话能力和统一语义空间，计划将不同模态和粒度的信息映射到语言空间，实现组合泛化。可惜的是，公司未能等到2023年上半年开始的大模型窗口期，在年初宣告了结束。

在学术上，组里的主力军们都在汪军的指导下成果斐然。

冯熙栋在元强化学习（Meta RL）已小有成果，围绕多智能体交互与元梯度估计偏差发表过两篇文章。

22年底Chat GPT的出现让他意识到LLM的泛化能力远超传统元强化学习。在汪军的提议下遂转向强化学习与语言模型的融合研究。他的第一篇工作将国际象棋作为包含验场。论文深入研究了了整个机器学习流程，包含数百万局对弈数据及对应的语言数据集，对应的语言模型和生成模型训练，以及评估模型策略的基准设计。

冯熙栋也因此获得了23年底Google DeepMind关于国际象棋的实习生项目名额，实习大半年后顺利转正，留在了discovery组，参与语言模型，生成模型与强化学习结合的研究。

汪军也鼓励学生们从不同的角度上去理解智能体和环境的交互决策的合理性，并将其用于强化学习与智能体突破。在汪军的启发下，杨梦月在博士期间的研究聚焦于可信AI，因果分析。从因果表示学习开始，进一步的延伸到对智能体交互的世界环境的因果理解，即因果世界模型，以辅助智能体决策的可解释性和可信研究。

杨梦月于2024年底加入布里斯托大学工程数学作为助理教授，她目前也将研究拓展到基于大模型下的广义的世界模拟中的因果探索。

和二人同届的李锡涵则关注学习优化、偏向于解决实际问题的应用，比如对芯片逻辑电路的优化，提出了类似LLM的生成式神经模型“Circuit Transformer”，通过精心设计的解码机制和马尔可夫决策过程，严格生成与给定布尔函数等价且更紧凑的逻辑电路，目标是做出“EDA（电子设计自动化）领域的AlphaGo ”。

目前，李锡涵正与华为诺亚方舟实验室合作，继续探索芯片研究。

UCL强化学习派：汪军与他的学生们

冯熙栋、杨梦月、李锡涵

大洋彼岸，2020年回国加入人大高瓴人工智能研究院的陈旭，在推进RL、因果推断在推荐系统方向的应用之余，也开始关注大模型，如角色扮演能力使大模型行为更贴近人类。同时，他还和社会学等人文社科合作，利用大模型智能体进行社会仿真，以进行低成本、快速的社会实践和模拟调查。

杨耀东则对Chat GPT的RLHF技术感到十分惊艳，于是只留下一个多智能体习方向的博士生，其余人all in强化学习的对齐方向，成为国内最早做对齐的学者之一。在ChatGPT发布两个月后，杨耀东团队首先复现了RLHF模型后训练对齐的效果。

杨耀东随后与当时尚未成立百川智能的王小川一同探讨，两位“RL信徒”迅速达成共识：这是通向AGI的重要环节。三年后，OpenAI O3、DeepSeek R1的诞生也印证了该认知。与百川智能的合作也让杨耀东意识到AI浪潮发生在业界而非学界，再次埋下了创业的种子。

随后在2024年具身智能的窗口期，杨耀东与梁一韬，温颖一同参与了灵初智能，创建了北大-灵初灵巧操作联合实验室，探索类人灵巧操作的具身智能产品，目前已推出了Psi - P0 规划模型和Psi - C0 控制模型。

此外，杨耀东还和杜雅丽合作，发表了华人首篇多智能体强化学习方向的Nature Machine Intelligence子刊，打破DeepMind的垄断，该论文也成为Nature Machine Intelligence创刊以来最受关注下载量最高的强化学习方向论文。

UCL强化学习派：汪军与他的学生们

论文链接：https://www.nature.com/articles/s42256-024-00879-7

去年10月，汪军来到温暖的花城广州，在港科大做RL China的开幕致辞。这是RL China第二年开始办线下活动，参加人数也倍增至500有余。

汪军希望未来每一年都采用线下方式举办，逐渐形成一个真正的RL学术会议或学生营，帮助缩短与国外存在的差距。

张伟楠指出，相比西方学者自上世纪八十年代的深厚积淀，国内2016年才起步的研究仍存在思维深度与技术底蕴的差距——这种差距既体现在顶级会议核心圈的中国声音稀缺，也反映在学术生态的脆弱性：当计算机视觉等领域提供更轻松的就业通道时，许多强化学习研究者选择转行。

作为将深度强化学习引入中国的先驱，汪军及其学生们在2016-2020年间的影响力甚至早于伯克利系学者的集体归国潮。他们借RL China点燃了第一把火，培养更多强化学习方向的学者与教师，让该学科在国内百所学校开设，并推动技术落地产业，实现变革。

UCL强化学习派：汪军与他的学生们

汪军的学生们还谈到，汪军总是活跃在科研一线探索，手把手教学生推公式，完全没有“学术大牛”的架子，凡事亲力亲为，总是“样样通、样样精”，从信息检索到推荐系统再到多智能体强化学习都能硕果累累。

知行合一的学术基因会在新一代学者身上延续。在杨耀东看来，汪军是他科研和为人处世上的领路人，当自己成为导师后，也希望对博士生传递一个核心理念，“五年后你们带不走任何算法代码，唯有两样东西真正属于你们——辨别研究方向的学术品味，以及决定学术生命长度的学术道德和规范。”

袁帅、陈博为、赵晓雪、张伟楠、杨耀东、温颖、张海峰、田政、陈旭、杜雅丽、冯熙栋、杨梦月、李锡涵等人从UCL的汪军组走出，以强化学习为根系成长为多个方向的先行者，在中国强化学习领域形成了重要的影响。

“在迈向AGI的路上，无论是哪种智能，强化学习这一步都不可或缺。”

UCL的故事已告一段落，但以强化学习为根基的他们，仍在续写着新的篇章。

UCL强化学习派：汪军与他的学生们

相关资讯

波士顿动力与前 CEO 联手推动 Atlas 机器人强化学习进展

OpenAI：强化学习确实可显著提高LLM性能，DeepSeek R1、Kimi k1.5发现o1的秘密

万字梳理：揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025

评论

UCL强化学习派：汪军与他的学生们

相关资讯

​波士顿动力与前 CEO 联手推动 Atlas 机器人强化学习进展

OpenAI：强化学习确实可显著提高LLM性能，DeepSeek R1、Kimi k1.5发现o1的秘密

万字梳理：揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025

评论

分享

波士顿动力与前 CEO 联手推动 Atlas 机器人强化学习进展