Creator 面对面 | 自监督学习范式未来能够在强化学习中发挥关键的作用

我们都知道自监督学习在 CV 和 NLP 领域都有比较广泛的应用,比如大模型 BERT、GPT-3 等训练,其实最核心的技术就是基于自监督学习的技术。 那么在 CV 和 NLP 领域都取得成功的自监督学习,是否可以被借鉴或是利用到强化学习领域呢?

2022 年 1 月,华为诺亚方舟决策推理实验室主任郝建业在做客机器之心「2021-2022 年度 AI 技术趋势洞察」直播间时,为我们带来了技术分享「自监督强化学习」(Self- supervised Reinforcement Learning)。

图片

本文整理了会议中的一些精选内容,完整回放视频可点击「阅读原文」查看。

郝教授首先介绍了「什么是自监督学习?」。

图片

如图中的鸟,把这张图片做一个不同角度的翻转得到一些不同角度的翻转的图片。那么给定两张图片,我们就可以预测或分类这张图片跟原始图片的一个相对角度,通过这种方式就可以构造大量的具有标签的样本。

紧接着,他还介绍了自监督学习在 NLP 任务中的应用 ,并表示例如 BERT、GPT-2,GPT-3 等大模型,自监督也是非常关键和最核心的一类技术。

图片

郝教授表示,目前在自监督学习中,最 SOTA 的一类方法是基于对比学习(Contrastive Learning)的方法。他还对此方法的核心思想做了介绍。

图片

在 CV 和 NLP 领域取得重大成功的自监督学习,我们可以以何种方式引入到强化学习呢?

强化学习有五个核心要素,那么意味着我们可以从这核心的5个要素入手去构建强化学习下的自监督表征学习能力。

图片

郝教授随后对其中的四个方面(States、Policies、Actions、Tasks/Environments)着重进行了讲解。

自监督状态表征强化学习

图片

RL 中做自监督的目的与 CV/NLP 类似,对于状态而言,我们希望学习到一个比较好的状态表征,从而帮助去做下游的一些任务;对于强化学习而言,则主要是包括规划和控制的任务。

目前通常有两大在状态维度做自监督学习的方法,一个是借鉴 CV 领域的 Contrastive-based 的方法,另一个是借鉴强化学习里的固有的特性这种称为 Bisimulation-based metrics 的方法。

Contrastive-based 的状态表征学习

图片

Bisimulation-based 的状态表征学习

图片

自监督策略表征强化学习

图片

郝教授以经典的强化学习算法 DQN 为例介绍了什么是基于策略的表征学习,然后介绍了强化学习做策略迭代的过程以及基于策略表征的强化学习架构。

强化学习中策略迭代的过程

图片

标准的强化学习做法其实是没有策略表征这一部分的。下图则是一个整体的基于策略表征的的强化学习架构。我们希望可以把策略表征引入到整个的 value function 中去。

图片

随后郝教授介绍了一项今年在 AAAI 的工作,该工作是上述的具体实现。

图片

这种方式利用了神经网络的天然的泛化性,帮助我们极大的提升整个策略学习或是策略更新的样本的利用率。

图片

结果表明,使用了这种不同的策略表征之后,它可以极大的提升不同任务下整体的强化学习最终收敛得到的收益表现。

自监督动作表征强化学习

图片

郝教授首先介绍了基于动作的表征学习的原理,并以他们今年在 ICLR 发表的工作为例阐述这种方式的实验效果。

图片

自监督任务/环境表征强化学习

图片

如何能够有一种好的自监督的方式去抽取跟任务相关的信息,以及在新的环境下如何能做一个高效探索,从而能快速的获得能够反映当前环境本质的一些信息?

郝教授又以去年在 AAAI 上的一项工作为例做了详细的说明。

图片

在分享的最后,郝教授总结到,自监督学习的这种范式在未来能够在强化学中发挥出非常关键的作用,它能够充当建立从所谓的感知到规控决策的桥梁。通过将自监督学习分别与 5 个维度融合及改进,从而从不同的维度来去提升整体强化学习的效率。

他还提到,由于自监督强化学习受关注的时间不长,目前还有很多的问题没有得到解决,希望大家共同努力,推动其发展。比如,目前是分别在不同维度来做,那么是否可以形成一个统一的新范式,能够把不同维度的自监督学习方式进行有机整合来从整体上提升强化学习的效率。另外如何将 policy 和 environment 表征做到天然的解耦,也是目前需要重点关注的一个问题。

图片

相关资讯

UC伯克利教授Pieter Abbeel开课了:六节课入门「深度强化学习」,讲义免费下载

课程视频时间有点长,但希望你能享受学习的快乐。将传统强化学习与深度神经网络结合的深度强化学习,一直以来被视为更接近人类思维方式的人工智能方法。深度学习具备强感知能力但缺乏一定的决策能力,强化学习具备决策能力但对感知问题束手无策,因此将两者结合起来可以达到优势互补的效果,为复杂系统的感知决策问题提供了解决思路。想要入门深度强化学习的同学们,请高度注意,一份优秀、细致、全面的新教材出现了。今天,UC 伯克利教授 Pieter Abbeel 上传了自己的新课程《深度强化学习基础》的最后一节视频,并在推特上安利了一下。这份

揭开深度强化学习的神秘面纱

编辑 | 萝卜皮深度强化学习是人工智能最有趣的分支之一。它是人工智能社区许多显着成就的基石,它在棋盘、视频游戏、自动驾驶、机器人硬件设计等领域击败了人类冠军。深度强化学习利用深度神经网络的学习能力,可以解决对于经典强化学习(RL)技术来说过于复杂的问题。深度强化学习比机器学习的其他分支要复杂得多。在这篇文章中,我们将尝试在不涉及技术细节的情况下,揭开它的神秘面纱。状态、奖励和行动每个强化学习问题的核心都是代理和环境。环境提供有关系统状态的信息。代理观察这些状态并通过采取行动与环境交互。动作可以是离散的(例如,拨动开

技术博客丨原来模型训练可以不用标注?一文全解四大机器学习方法

本文将用通俗的方式,为大家介绍耳熟能详却分辨不清的四个机器学习核心概念:监督式学习、半监督学习、非监督学习和自监督学习,并将用实例简介它们试图解决的问题。