DeepMind 的钻研科学家和工程师亲身讲授了一套加强进修课程,目前已全部上线。
DeepMind 作为全球顶级 AI 钻研机构,自 2010 年创建以来已有多项世界瞩目的钻研成果,例如击败世界顶级围棋玩家的 AlphaGo 和今年高效展望的蛋白质结构的 AlphaFold。
近几年,DeepMind 联合伦敦大学学院(UCL)推出了一些人工智能线上课程,今年他们联合推出的「2021 加强进修系列课程」现已全部上线。该课程由 DeepMind 的钻研科学家和工程师亲身讲授,旨在为学生提供对现代加强进修的全面介绍。
课程主页:https://deepmind.com/learning-resources/reinforcement-learning-series-2021
课程介绍
本次课程共包含 13 节,涵盖了顺序决策问题中加强进修和计划的基础知识,并进一步讲授了现代深度加强进修算法。其中详细讲授了加强进修的多个主题,包含马尔科夫决策过程(MDP)、基于样本的进修算法(例如双 Q 进修、SARSA)、深度加强进修等,还探讨了一些更高级的主题,包含 off-policy 进修、多步更新和资格迹(eligibility traces),以及实现 Rainbow DQN 等深度加强进修算法需要的理论和现实条件。
下面我们来看一下各节课程的具体内容。
第 1 讲 加强进修简介:DeepMind 钻研科学家 Hado van Hasselt 首先简单介绍了本次加强进修课程的内容,然后讲授了加强进修与 AI 的关系。
第 2 讲 探索与控制:Hado van Hasselt 讲授了为什么进修智能体必须同时做到平衡探索和利用所获的知识。
第 3 讲 MDP 和动向计划:DeepMind 钻研科学家 Diana Borsa 讲授了如何使用动向计划解决 MDP 以提取准确的展望和良好的控制战略。
第 4 讲 动向计划算法的理论基础:Diana Borsa 讲授了动向计划算法的扩展和收缩映射定理(contraction mapping)。
第 5 讲 无模型展望:Hado van Hasselt 仔细讲授了无模型展望及其与蒙特卡罗和时间差分算法的关系。
第 6 讲 无模型控制:Hado van Hasselt 讲授了用于战略改进的展望算法,以产生可以从采样经验中进修良好行为战略的算法。
第 7 讲 函数类似:Hado van Hasselt 讲授了如何将深度进修与加强进修结合,以实现「深度加强进修」。
第 8 讲 计划与模型:DeepMind 钻研工程师 Matteo Hessel 讲授了如何进修和使用模型,包含 Dyna 、蒙特卡洛树搜索 (MCTS) 等算法。
第 9 讲 战略梯度和 Actor-Critic 方法:Hado van Hasselt 讲述了可以直接进修战略的战略算法,并进一步讲授了结合价值展望以提高进修效率的 actor critic 算法。
第 10 讲 类似动向计划:Diana Borsa 讲授了类似动向计划算法,探讨了如何从理论的角度分析类似算法的性能。
第 11 讲 多步和 off-policy:Hado van Hasselt 讲授了多步和 off-policy 算法,包含多种减小方差的方法。
第 12 讲 深度加强进修 #1:Matteo Hessel 讲授了深度加强进修的实际要求和具体算法,以及如何使用自动微分(Jax)来实现。
第 13 讲 深度加强进修 #2:Matteo Hessel 讲授了通用价值函数(general value functions)、基于 GVF 的辅助任务,并进一步讲授了如何处理算法中的扩展问题。
DeepMind 钻研者亲身授课
该系列课程的讲师是 DeepMind 的钻研科学家和工程师 Hado van Hasselt、Diana Borsa 和 Matteo Hessel。
Hado van Hasselt
Hado van Hasselt 是 DeepMind 的一名钻研科学家,也是伦敦大学学院(UCL)的光荣教授。Hado van Hasselt 博士毕业于世界顶尖公立钻研型大学和百强名校乌得勒支大学,他的钻研兴趣包含人工智能、机器进修、深度进修,并重点钻研加强进修。
Diana Borsa
Diana Borsa 是 DeepMind 的钻研科学家,也是 UCL 的光荣讲师。她的钻研兴趣主要是加强进修、机器进修、统计进修和通用人工智能(AGI),涵盖智能体进修、交互系统、多智能体系统、概率建模、表征进修等。
Matteo Hessel
Matteo Hessel 是 DeepMind 的一位钻研工程师,也是 UCL 的光荣讲师。他的钻研重点是加强进修及其与深度进修的结合。Hessel 曾在 NeurIPS、ICML、ICLR、AAAI 和 RLDM 上发表过十余篇论文,这些论文的引用次数超过 4000 次,并获得了 2 项注册专利。