DeepMind联合UCL,推出2021强化学习最新课程

DeepMind 的研究科学家和工程师亲自讲授了一套强化学习课程,目前已全部上线。DeepMind 作为全球顶级 AI 研究机构,自 2010 年创建以来已有多项世界瞩目的研究成果,例如击败世界顶级围棋玩家的 AlphaGo 和今年高效预测的蛋白质结构的 AlphaFold。近几年,DeepMind 联合伦敦大学学院(UCL)推出了一些人工智能线上课程,今年他们联合推出的「2021 强化学习系列课程」现已全部上线。该课程由 DeepMind 的研究科学家和工程师亲自讲授,旨在为学生提供对现代强化学习的全面介绍。课程

DeepMind 的研究科学家和工程师亲自讲授了一套强化学习课程,目前已全部上线。

DeepMind 作为全球顶级 AI 研究机构,自 2010 年创建以来已有多项世界瞩目的研究成果,例如击败世界顶级围棋玩家的 AlphaGo 和今年高效预测的蛋白质结构的 AlphaFold。

近几年,DeepMind 联合伦敦大学学院(UCL)推出了一些人工智能线上课程,今年他们联合推出的「2021 强化学习系列课程」现已全部上线。该课程由 DeepMind 的研究科学家和工程师亲自讲授,旨在为学生提供对现代强化学习的全面介绍。

DeepMind联合UCL,推出2021强化学习最新课程

课程主页:https://deepmind.com/learning-resources/reinforcement-learning-series-2021

课程介绍

本次课程共包括 13 节,涵盖了顺序决策问题中强化学习和规划的基础知识,并进一步讲解了现代深度强化学习算法。其中详细讲解了强化学习的多个主题,包括马尔科夫决策过程(MDP)、基于样本的学习算法(例如双 Q 学习、SARSA)、深度强化学习等,还探讨了一些更高级的主题,包括 off-policy 学习、多步更新和资格迹(eligibility traces),以及实现 Rainbow DQN 等深度强化学习算法需要的理论和现实条件。

下面我们来看一下各节课程的具体内容。

第 1 讲 强化学习简介:DeepMind 研究科学家 Hado van Hasselt 首先简单介绍了本次强化学习课程的内容,然后讲解了强化学习与 AI 的关系。

DeepMind联合UCL,推出2021强化学习最新课程

第 2 讲 探索与控制:Hado van Hasselt 讲解了为什么学习智能体必须同时做到平衡探索和利用所获的知识。

第 3 讲 MDP 和动态规划:DeepMind 研究科学家 Diana Borsa 讲解了如何使用动态规划解决 MDP 以提取准确的预测和良好的控制策略。

DeepMind联合UCL,推出2021强化学习最新课程

第 4 讲 动态规划算法的理论基础:Diana Borsa 讲解了动态规划算法的扩展和收缩映射定理(contraction mapping)。

第 5 讲 无模型预测:Hado van Hasselt 仔细讲解了无模型预测及其与蒙特卡罗和时间差分算法的关系。

第 6 讲 无模型控制:Hado van Hasselt 讲解了用于策略改进的预测算法,以产生可以从采样经验中学习良好行为策略的算法。

第 7 讲 函数近似:Hado van Hasselt 讲解了如何将深度学习与强化学习结合,以实现「深度强化学习」。

第 8 讲 规划与模型:DeepMind 研究工程师 Matteo Hessel 讲解了如何学习和使用模型,包括 Dyna 、蒙特卡洛树搜索 (MCTS) 等算法。

DeepMind联合UCL,推出2021强化学习最新课程

第 9 讲 策略梯度和 Actor-Critic 方法:Hado van Hasselt 讲述了可以直接学习策略的策略算法,并进一步讲解了结合价值预测以提高学习效率的 actor critic 算法。

第 10 讲 近似动态规划:Diana Borsa 讲解了近似动态规划算法,探讨了如何从理论的角度分析近似算法的性能。

第 11 讲 多步和 off-policy:Hado van Hasselt 讲解了多步和 off-policy 算法,包括多种减小方差的方法。

第 12 讲 深度强化学习 #1:Matteo Hessel 讲解了深度强化学习的实际要求和具体算法,以及如何使用自动微分(Jax)来实现。

第 13 讲 深度强化学习 #2:Matteo Hessel 讲解了通用价值函数(general value functions)、基于 GVF 的辅助任务,并进一步讲解了如何处理算法中的扩展问题。

DeepMind 研究者亲自授课

该系列课程的讲师是 DeepMind 的研究科学家和工程师 Hado van Hasselt、Diana Borsa 和 Matteo Hessel。

Hado van Hasselt

DeepMind联合UCL,推出2021强化学习最新课程

Hado van Hasselt 是 DeepMind 的一名研究科学家,也是伦敦大学学院(UCL)的荣誉教授。Hado van Hasselt 博士毕业于世界顶尖公立研究型大学和百强名校乌得勒支大学,他的研究兴趣包括人工智能、机器学习、深度学习,并重点研究强化学习。

Diana Borsa

DeepMind联合UCL,推出2021强化学习最新课程

Diana Borsa 是 DeepMind 的研究科学家,也是 UCL 的荣誉讲师。她的研究兴趣主要是强化学习、机器学习、统计学习和通用人工智能(AGI),涵盖智能体学习、交互系统、多智能体系统、概率建模、表征学习等。

Matteo Hessel

DeepMind联合UCL,推出2021强化学习最新课程

Matteo Hessel 是 DeepMind 的一位研究工程师,也是 UCL 的荣誉讲师。他的研究重点是强化学习及其与深度学习的结合。Hessel 曾在 NeurIPS、ICML、ICLR、AAAI 和 RLDM 上发表过十余篇论文,这些论文的引用次数超过 4000 次,并获得了 2 项注册专利。

相关资讯

时隔五年,普林斯顿大学经典书《在线凸优化导论》第二版发表

2016 年发表的《在线凸优化导论》第一版已成为领域内经典书籍。

科学机器学习的竞争和共识:博弈论方法如何导致更智能的人工智能

编译/凯霞得益于空军科学研究办公室的195 万美元赠款,马萨诸塞大学阿默斯特分校数学和统计系教授 Markos Katsoulakis 和 Luc Rey-Bellet,以及布朗大学的 Paul Dupuis 将在接下来的四年开发一种新的机器学习方法,超越对大数据的传统依赖。Markos KatsoulakisLuc Rey-Bellet传统的机器学习依赖于庞大的数据缓存,算法可以筛选这些数据以「训练」自己完成任务,从而产生基于数据的数学模型。但是,如果数据很少,或者生成足够多的数据成本太高,该怎么办呢?一种可能的

佐治亚理工学院硕士建议:2022年你应该掌握这些机器学习算法

2022 年你应该知道的所有机器学习算法。