在今年 1 月,微软亚洲研究院(MSRA)视觉计算组的主任研究员胡瀚在做客呆板之心「2021-2022 年度 AI 技术趋势洞察」的「模型专场」直播间时,为我们带来了主题为「面向一致的 AI 模型架构和进修格式」的进修分享。
胡瀚博士首先为大家先容了鉴于通用架构的通用进修呆板—人脑。
左图中比较褶皱的地方叫新皮质,这个部分占了整个人脑的 70% 左右,负责了大部分的人类的智能,包括视觉、触觉、听觉等等。尽管有很多不同的功能区,但是它的布局非常一致。如果我们将这些褶皱展开的话,它的形状就像一个餐巾布,长宽大概 40 到 50 厘米,厚2到3毫米。
最右边的图是通过三种染色格式得到的一个剖面图,它是一个很明显的六层布局。这样一个布局表明先前看起来很不一样的这些能力,它所用的布局几乎是一模一样的。反过来说,我们几乎所有的智能,都可以用这样的一种通用的布局来实现,即新皮质,而这本来也是人之所以能够成为万物之灵长的一个关键所在。
随后胡瀚博士分享了一个关于大脑新皮质的可塑性的一个实行。
该实行发表在 2000 年的《Nature》上,科学家在在老鼠出生的时候,把听觉的皮层的输出掐断,然后把视觉的输出粘到听觉皮层里面,然后发现一段时间以后,这个听觉皮层也能够对视觉产生响应。这个例子就表明我们的神经的皮质本来是很通用的。
前面提到的是大脑的布局,是先天的,那么人脑又是如何进行后天进修的呢?胡瀚博士先容了 LeCun 的蛋糕类比、婴儿在观察中的进修(自监视)、一致进修格式等等。
人脑的进修目前普遍认为本来是通过一种预测的方法。
具体人脑是如何实现的呢?目前还尚不清楚,但脑科学家们有一些推论,认为丘脑可能起到了关键作用。
人脑它是一个鉴于通用模型,通用进修格式的呆板。我们相信未来的 AI 它也必然是一个一致的模型以及一致的进修格式。这里,胡瀚博士分别对 「迈向一致的 AI 模型架构」和 「迈向一致的 AI 进修格式」做了分享。
迈向一致的 AI 模型架构
胡瀚博士首先先容了卷积用于序列自然语言处理的格式 和 视觉格式。
其中 Transformer 是目前处于一个统治的地位,原因是其有强大的通用性。
胡瀚博士着重先容了由他们团队研发的 Swin Transformer,先容了 Swin Transformer 的核心想法还有 Swin 的关键技术及创新:移位窗口格式等等。
鉴于下图中这样的一个设计范式,可以用来处理 NLP 和 CV 以及广泛的一些问题。
迈向一致的 AI 进修格式
NLP 规模中的进修格式,如 BERT — 掩码信号预测。
CV 规模以往是鉴于有监视来做预训练,但从 MoCo 首次以自监视的方法超越有监视的方法开始,视觉自监视格式引起了广泛的关注。
NLP 规模中的进修格式在 CV 规模被验证有效。
一致收集架构和一致进修格式铸造视觉大模型Swin Transformer v2。
分享的最后,胡博士讲道:我们应该期待去拥抱 AI 的一致收集架构以及进修格式。