2022 年 1 月,华为诺亚方舟决策推理实验室主任郝建业在做客机器之心「2021-2022 年度 AI 技术趋势洞察」直播间时,为我们带来了技术分享「自监督强化学习」(Self- supervised Reinforcement Learning)。
本文整理了会议中的一些精选内容,完整回放视频可点击「阅读原文」查看。
郝教授首先介绍了「什么是自监督学习?」。
如图中的鸟,把这张图片做一个不同角度的翻转得到一些不同角度的翻转的图片。那么给定两张图片,我们就可以预测或分类这张图片跟原始图片的一个相对角度,通过这种方式就可以构造大量的具有标签的样本。
紧接着,他还介绍了自监督学习在 NLP 任务中的应用 ,并表示例如 BERT、GPT-2,GPT-3 等大模型,自监督也是非常关键和最核心的一类技术。
郝教授表示,目前在自监督学习中,最 SOTA 的一类方法是基于对比学习(Contrastive Learning)的方法。他还对此方法的核心思想做了介绍。
在 CV 和 NLP 领域取得重大成功的自监督学习,我们可以以何种方式引入到强化学习呢?
强化学习有五个核心要素,那么意味着我们可以从这核心的5个要素入手去构建强化学习下的自监督表征学习能力。
郝教授随后对其中的四个方面(States、Policies、Actions、Tasks/Environments)着重进行了讲解。
自监督状态表征强化学习
RL 中做自监督的目的与 CV/NLP 类似,对于状态而言,我们希望学习到一个比较好的状态表征,从而帮助去做下游的一些任务;对于强化学习而言,则主要是包括规划和控制的任务。
目前通常有两大在状态维度做自监督学习的方法,一个是借鉴 CV 领域的 Contrastive-based 的方法,另一个是借鉴强化学习里的固有的特性这种称为 Bisimulation-based metrics 的方法。
Contrastive-based 的状态表征学习
Bisimulation-based 的状态表征学习
自监督策略表征强化学习
郝教授以经典的强化学习算法 DQN 为例介绍了什么是基于策略的表征学习,然后介绍了强化学习做策略迭代的过程以及基于策略表征的强化学习架构。
强化学习中策略迭代的过程
标准的强化学习做法其实是没有策略表征这一部分的。下图则是一个整体的基于策略表征的的强化学习架构。我们希望可以把策略表征引入到整个的 value function 中去。
随后郝教授介绍了一项今年在 AAAI 的工作,该工作是上述的具体实现。
这种方式利用了神经网络的天然的泛化性,帮助我们极大的提升整个策略学习或是策略更新的样本的利用率。
结果表明,使用了这种不同的策略表征之后,它可以极大的提升不同任务下整体的强化学习最终收敛得到的收益表现。
自监督动作表征强化学习
郝教授首先介绍了基于动作的表征学习的原理,并以他们今年在 ICLR 发表的工作为例阐述这种方式的实验效果。
自监督任务/环境表征强化学习
如何能够有一种好的自监督的方式去抽取跟任务相关的信息,以及在新的环境下如何能做一个高效探索,从而能快速的获得能够反映当前环境本质的一些信息?
郝教授又以去年在 AAAI 上的一项工作为例做了详细的说明。
在分享的最后,郝教授总结到,自监督学习的这种范式在未来能够在强化学中发挥出非常关键的作用,它能够充当建立从所谓的感知到规控决策的桥梁。通过将自监督学习分别与 5 个维度融合及改进,从而从不同的维度来去提升整体强化学习的效率。
他还提到,由于自监督强化学习受关注的时间不长,目前还有很多的问题没有得到解决,希望大家共同努力,推动其发展。比如,目前是分别在不同维度来做,那么是否可以形成一个统一的新范式,能够把不同维度的自监督学习方式进行有机整合来从整体上提升强化学习的效率。另外如何将 policy 和 environment 表征做到天然的解耦,也是目前需要重点关注的一个问题。