Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

我们都知道自监视进修在 CV 和 NLP 领域都有比较广泛的应用,比如大模型 BERT、GPT-3 等训练,其实最焦点的技术就是鉴于自监视进修的技术。 那么在 CV 和 NLP 领域都取得成功的自监视进修,是否可以被借鉴或是利用到加强进修领域呢?

2022 年 1 月,华为诺亚方舟决策推理实验室主任郝建业在做客机器之心「2021-2022 年度 AI 技术趋势洞察」直播间时,为我们带来了技术分享「自监视加强进修」(Self- supervised Reinforcement Learning)。

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

本文整理了会议中的一些精选内容,完整回放视频可点击「阅读原文」查看。

郝老师首先引见了「什么是自监视进修?」。

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

如图中的鸟,把这张图片做一个分别角度的翻转得到一些分别角度的翻转的图片。那么给定两张图片,我们就可以预测或分类这张图片跟原始图片的一个相对角度,通过这类方法就可以构造大量的具有标签的样本。

紧接着,他还引见了自监视进修在 NLP 任意中的应用 ,并表示例如 BERT、GPT-2,GPT-3 等大模型,自监视也是非常关键和最焦点的一类技术。

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

郝老师表示,当前在自监视进修中,最 SOTA 的一类法子是鉴于对比进修(Contrastive Learning)的法子。他还对此法子的焦点思想做了引见。

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

在 CV 和 NLP 领域取得重大成功的自监视进修,我们可以以何种方法引入到加强进修呢?

加强进修有五个焦点要素,那么意味着我们可以从这焦点的5个要素入手去构建加强进修下的自监视表征进修能力。

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

郝老师随后对其中的四个方面(States、Policies、Actions、Tasks/Environments)着重进行了讲解。

自监视状况表征加强进修

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

RL 中做自监视的目的与 CV/NLP 类似,对于状况而言,我们希望进修到一个比较好的状况表征,从而帮助去做下游的一些任意;对于加强进修而言,则主要是包括规划和控制的任意。

当前通常有两大在状况维度做自监视进修的法子,一个是借鉴 CV 领域的 Contrastive-based 的法子,另一个是借鉴加强进修里的固有的特性这类称为 Bisimulation-based metrics 的法子。

Contrastive-based 的状况表征进修

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

Bisimulation-based 的状况表征进修

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

自监视战略表征加强进修

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

郝老师以经典的加强进修算法 DQN 为例引见了什么是鉴于战略的表征进修,然后引见了加强进修做战略迭代的过程以及鉴于战略表征的加强进修架构。

加强进修中战略迭代的过程

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

标准的加强进修做法其实是没有战略表征这一部分的。下图则是一个整个的鉴于战略表征的的加强进修架构。我们希望可以把战略表征引入到整个的 value function 中去。

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

随后郝老师引见了一项今年在 AAAI 的工作,该工作是上述的具体实现。

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

这类方法利用了神经网络的天然的泛化性,帮助我们极大的提拔整个战略进修或是战略更新的样本的利用率。

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

结果表明,使用了这类分别的战略表征之后,它可以极大的提拔分别任意下整个的加强进修最终收敛得到的收益表现。

自监视动作表征加强进修

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

郝老师首先引见了鉴于动作的表征进修的原理,并以他们今年在 ICLR 发表的工作为例阐述这类方法的实验效果。

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

自监视任意/环境表征加强进修

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

如何可以或许有一种好的自监视的方法去抽取跟任意相关的信息,以及在新的环境下如何能做一个高效探索,从而能快速的获得可以或许反映当前环境本质的一些信息?

郝老师又以去年在 AAAI 上的一项工作为例做了详细的说明。

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

在分享的最后,郝老师总结到,自监视进修的这类范式在未来可以或许在加强学中发挥出非常关键的作用,它可以或许充当建立从所谓的感知到规控决策的桥梁。通过将自监视进修分别与 5 个维度融合及改进,从而从分别的维度来去提拔整个加强进修的效率。

他还提到,由于自监视加强进修受关注的时间不长,当前还有很多的问题没有得到解决,希望大家共同努力,推动其发展。比如,当前是分别在分别维度来做,那么是否可以形成一个统一的新范式,可以或许把分别维度的自监视进修方法进行有机整合来从整个上提拔加强进修的效率。另外如何将 policy 和 environment 表征做到天然的解耦,也是当前需要重点关注的一个问题。

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

给TA打赏
共{{data.count}}人
人已打赏
AI

从AI小冰的迭代看AI手艺的代际演进

2022-7-25 17:41:00

AI

技能破局?畅谈元宇宙大浪下的AI技能流实践机遇与应战

2022-7-26 15:45:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索