随着 NLP 和 CV 的日益融合,多模态进修越来越受到学界和业界的重视。在 DALL-E、Stable Diffusion 等文本生成图像跨模态应用成熟之后,围绕多模态进修、AIGC 等议题的讨论热度持续攀升。
当然,还有得多题目需要进一步探索:比如,多模态进修在哪些任意上还有极具前景的应用潜力?多模态手艺在真实场景中的泛化受到哪些限制?
11 月 19 日,小红书 REDtech 年青手艺沙龙 – 北京站圆满收官。在这场活动上,数位顶尖学者、小红书手艺团队大神和年青学子们齐聚一堂,对多模态手艺、AIGC、年青人材职业发展等热门议题进行了深入讨论。
出席本次沙龙的嘉宾囊括小红书社区部多媒体智能算法负责人张德兵、中国科学院自动化研讨所研讨员、博士生导师张兆翔,北京智源人工智能研讨院研讨员曹越,此外,本场沙龙还为即将投身业界的高校学子特别设置了嘉宾对谈、自由交流等环节。北京师范大学人工智能学院黄华教授与小红书手艺副总裁风笛。为年青人材们提供了得多有益的学术研讨指导与建议。
多模态衍进之路
多模态进修的本质,可以理解为从囊括文本、图像、视频、音频等分别模态的信息中进修并且提升自身算法。此前,对于分别模态的数据,大家应用的是分别的网络架构,比如 CV 规模应用 Convolution,NLP 规模应用 Transformer,图规模应用图网络。
多模态进修的发展是如何打破「分界线」,促使人工智能走向统一的?作为本场沙龙的学界代表之一,北京智源人工智能研讨院研讨员曹越从理论研讨的角度切入,回溯了多模态的衍进之路。
曹越的研讨规模囊括基础模型、自监督进修、多模态进修。在清华大学取得博士学位之后,曹越加入了微软亚洲研讨院视觉计算组。期间参与了多项重要研讨,囊括 Swin Transformer、GCNet、SimMIM 与 VL-BERT 等。2021 年,Swin Transformer 获得了 ICCV 最佳论文奖—马尔奖。
他认为,从建模的角度看,当前的人工智能规模在逐渐走向统一。
在机器进修时代,这种统一表现在范式上。很久之前,对于分别任意,研讨者需要实现手动设计规则来完成任意。后来,模型可以从历史数据中进行进修,并且进行预测。在这个过程中,研讨者需要做的是针对分别的任意设计相应的模型、损失和算法。到了深度进修时代,这种统一更多体现在架构上。分别任意都开始应用深度神经网络,囊括 CNN、RNN、LSTM 等。
曹越表示,在一系列变革之后,架构和预训练过程还有待统一。对于分别模态的数据而言,大家会应用分别基础架构单元,比如对于图片会应用卷积神经网络,对于文本则应用 Transformer,二者的表征进修过程是分别的。这种规则也在发生变化。
在视觉规模,卷积神经网络在很长一段时间都占据主导地位。2017 年后,Transformer 大放异彩,一些研讨人员致力于将其应用到计算机视觉中。学术界发现 Transformer 的网络结构设计可以几乎不经过任何改变直接应用到视觉信号。于是不管是自然语言处理还是视觉类任意,都开始应用 Transformer 作为基础架构单元。这方面也有得多代表作,比如 ViT、DeiT、Swin Transformer 等。
同时,模型的预训练方法逐渐统一。视觉规模的训练往往需要大量人类标注的语言,而语言进修过程中的自监督预训练不需要额外进行标注。借助这种方式,视觉模型也可以利用几乎无限的数据进行预训练模型之后,并在一系列下游任意中取得非常瞩目的性能提升。这方面的代表作有BEiT、SimMIM、MAE等。
下一步会走向何方?曹越认为,通用模型时代或将到来,预训练模型无需微调就可以处理分别模态的输入,囊括语言、视频和图像等,并且能够完成分别的任意。
小红书的多模态实践
在学术界不断取得前沿突破的同时,多模态手艺也走进了工业界,逐渐落地生根。作为近年来国内发展最迅速的移动互联网平台之一,数亿量级的搜推流量、跨越多个模态的海量数据集、AI 智能化辅助 UGC 创作、基于多云的高可用基础架构、融合用户 – 商品 – 实质的深度理解及表征进修…… 这样的生态带来了得多前沿的手艺挑战,小红书已经成为了多模态相关手艺的绝佳落地场和领先实践场,为小红书的手艺人提供了广阔的成长空间。
本场沙龙上,小红书社区部多模态智能算法负责人张德兵分享了《小红书多模态智能创作手艺与应用》相关主题实质。张德兵本科毕业于浙大丘成桐数学英才班,长期关注 CV / NLP / 音频 / 多模态 / 智能创作等相关手艺,并推动 CV、多模态等手艺在安防、零售、体育等 TO B 场景和短视频、广告等 C 端场景的多项业务落地。
他在分享中提到,每天都有得多普通创作者在小红书上真诚分享和记录自己的生活,但是「创作」并不是一件特别容易的事。尤其是对于小红书社区的 UGC 属性而言,普通用户在如何进行视频表达的时候,会遇到拍摄的视频缺乏亮点、学不会复杂的剪辑过程等等阻碍。
如何以手艺手段克服这些挑战,帮助用户更好地记录生活、表达生活,也是小红书手艺团队认真考虑的题目。
目前,在小红书,多模态智能创作已经在助力更多普通人进行高效的实质创作,比如
智能模板、一键成片、一键添加闪光点等功能。
以上图的视频和图文模板为例,在制作实质的时候,用户并不需要有特别专业的剪辑能力、创作能力,只要仿照类似的模板指引,就可以非常便捷地制作类似的实质。在多模态手艺的加持下,小红书还提供了基于文案寻找相关素材的辅助功能,加上智能配乐即可得到想要的结果。
解决这些挑战并不容易。因此,小红书一直以来都在深耕相关底层手艺,特别是多模态手艺。在沙龙现场,张德兵深入介绍了小红书多模态智能创作手艺的整体框架:
为了实现更好的辅助创作效果,小红书手艺团队打造了一条比较复杂的手艺链路,从基础架构、基础 AI 能力到端云协同的操作。此外,为了跟设计师有很好的协同,团队还做了大量提效工具,让设计师和 AI 的合作更加密切,更好地还原亮点效果,支撑各种各样的上游应用场景。
小红书手艺团队的布局分三部分:视觉维度;音频维度;多模态维度。视觉手艺层面,囊括目标精细分割、智能补全、稳定光流、深度估计;音频手艺层面,囊括 ASR、TTS、音乐生成。此外,特别值得关注的是多模态手艺的应用。
鉴于小红书站内有非常多优质图文数据、笔记评论以及外部开源语料,团队基于大规模中文语料库和高质量的图文数据,做了小红书版本的多元场景跨模态预训练模型。在基础的训练模型版本上,团队结合具体场景去进行进一步的优化。张德兵介绍说,除了文案推荐之外,视觉元素和音乐之间的关联、歌词之间的关联、实质和模板之间的关联都是各种各样多模态形式,其关联性都可以通过跨模态匹配来建模。而且用户应用过程中会留下越来越多的行为信号,这些信号也可以用来持续优化算法,提升用户体验。
还有一个方向是实质生成。对于最近热门的AIGC方向,小红书手艺团队也在做一些尝试,一个很典型的方式是基于文本描述来搜索或者生成实质,另外如何基于用户提供的素材来进行更好的个性化创作也是个很有趣的方向。
当自动驾驶遇见「多模态」
正如上述实质所说,视频、图像、文字、语音这些我们日常接触到的信息形式都可以算作模态。而从理论上说,模态的范围要比我们的感知能力更广泛,比如利用传感器获得的雷达、红外线等感应数据也属于模态信息。
这类模态信息在自动驾驶场景中更为常见。在本场沙龙上,中国科学院自动化研讨所研讨员张兆翔教授分享了《面向自动驾驶场景的多源融合视觉感知》相关实质。
张兆翔教授现为中国科学院自动化研讨所研讨员、博士生导师。他的主要研讨方向囊括视觉场景理解、类脑认知与进修等,在 TPAMI、IJCV、JMLR、CVPR 等本规模顶刊顶会发表论文 100 余篇,担任过 CVPR、ICCV、AAAI、IJCAI、ACM MM 等知名国际会议的规模主席。
在当下炙手可热的自动驾驶行业,多源融合视觉感知是非常重要的手艺路线。张兆翔表示,自动驾驶场景的感知本质上是多模态、多任意的。比如视觉感知存在分别场景,这些场景中的尺寸、视角可能又各不相同。一直以来,张兆翔致力于探索模型的自适应性,囊括如何解决标注题目、如何适配场景等题目。
在分享中,他介绍了一项代表性研讨:三叉戟网络 TriNet(Trident Network for Object Detection)。这项研讨探索了让一个通用模型借助分别的分支类型去刻画尺度,分别适应解决小目标、中型目标、大目标的题目。
随后,张兆翔亦介绍了自己在图像分割规模的研讨心得。相比于小红书手艺实践中常见的人形分割,现实场景中的分割任意更加多样,比如帽子、水杯、路灯等物体。为了降低大量数据标注所带来的成本题目,他和团队将点级标注用于弱监督的全景分割。与完全监督方法所应用的密集的像素级标签分别,点级标注只为每个目标提供一个单点作为监督,大大减少了标注负担。
这项研讨《Pointly-Supervised Panoptic Segmentation》亿发表在 ECCV 2022 上。
多源融合视觉感知的对象不仅囊括图像,还囊括点云,其场景不仅在车上,还囊括各种各样智能设备,甚至是扫地机器人。面对大量非结构化的原始数据,张兆翔也尝试引入 Transformer 架构,实现方法上的创新。在一篇 CVPR 2022 论文中,他提出了空间稀疏的单步长 Transformer 结构,完成了主干网络的空间稀疏化,提升了物体检测性能。
「大咖面对面」:给年青人的研讨建议
聆听完最前沿的手艺分享之后,在本次沙龙的压轴环节,北京师范大学人工智能学院黄华教授、小红书手艺副总裁风笛两位前辈分别从学界和业界角度出发,开展了一场关于「AI 手艺提升与实力升级」的对谈。
多模态进修、AIGC 都属于当下比较火的方向,也引发了大量手艺人材的关注。那么,作为一名年青研讨者,如何看待瞬息万变的研讨热点呢?
风笛表示,真正做出好的产品需要的是专注于用户价值和产品体验。对于新的手艺、新的模型方法,保持关注、了解到有哪些新的东西即可,不一定非要追逐热点。
黄华教授表示,从研讨者个人角度出发的话,追热点也不是必须的。因为热点是随时变化的,当热点出现的时候,你往往追不到它,同时也会有得多其他人在追。换个角度说,即使你现在做的工作不是热点,但两三年后也许会变成热点。况且从研讨角度来讲,得多学术思想是相通的。
还有一些话题,也是在场年青学子非常关心的。比如,当前 AI 规模什么样的人材是最紧缺的?是手艺研讨型,还是落地应用型?基于这样的需求,学界和业界又该如何助力 AI 人材的培养呢?针对这些题目,两位嘉宾分别给出了自己的建议。
在黄华教授看来,人工智能的理论研讨很重要,但是对企业来说,更重要的是落地,所以两种人材都是被需要的。对于 AI 相关专业的学生来说,如果说想去到工业界,就可以尽量多做点手艺类的项目,如果想在学术界深造,就多做一些理论方面的工作。
高校的人材培养模式和企业界需求存在差异,学术界追求的是发表高水平论文,而企业要求的是能解决实际题目。现在教育界提倡的是「研讨真题目、真研讨题目」,想要解决好这个题目,就需要学界和业界合作。做理论研讨或许可以不考虑实际需求,但也有一种说法,做理论的人如果不了解工程题目,理论也不会做得特别好,因为真正有价值的理论题目通常是要能够解决实际题目的。
风笛则更多根据小红书的经验,从企业界的角度出发介绍了年青手艺人材成长与培养的路径。他提到,企业对具备手艺落地能力的人材需求会更多一些,但是同时也会需要少量基础研讨类人材。特别地,像小红书这样的企业会很关注对于数据和算力的挖掘,这个方向上还需要更多的优秀 AI 人材来共同突破。
小红书作为一家 UGC 视频分享平台,拥有非常特殊的海量的多模态数据集,在信息检索、信息推荐、信息理解,特别在智能创作相关手艺,以及底层多模态进修、统一表征进修等方向上,都能提供非常重要的研讨源头:数据。
这恰好弥补了学术界研讨普遍缺少的要素——对于得多做人工智能方向研讨的实验室来说,挑战基本不在于硬件设备的条件,缺少的是真正能够为数亿用户所应用的应用场景,以及这些场景产生的真实数据。得多工作难以与真实用户做交互,更多是基于可能存在偏差的历史数据进行研讨。而数据集和真实场景,都是小红书本身具备的优势。此外,小红书还能提供比较强大的算力资源。
此外,对于优秀的应届毕业生,小红书从人材培养机制上进行了精心的设置,囊括从融入职场到成长为行业手艺人材全周期的的详细培养方案。
入职之后,小红书手艺团队会通过薯光计划、Mentor 机制等方式,帮助应届生成为真正的手艺人。小红书从内部精选了一批绩优资深工程师组成 Mentor 池,每位应届生都会有专属的 Mentor 手把手带教,帮助应届生在实践中找到擅长的手艺方向。
在小红书手艺团队中,得多成员都拥有谷歌、BAT 等海内外一线大厂的工作经历。他们也会将这些经验沉淀下来,传承给每一位入职小红书的应届生。
在专业能力培养上,小红书手艺团队会设置各种手艺交流形式,比如由公司内部手艺规模专家授课答疑的「手艺 101 课程」、定期内部手艺分享、公司内部学术牛人组织的「论文领读会」以及定期的高校及重点实验室交流等,帮助他们尽早接触到更为前沿的工业级手艺,实现更好的成长。
此外,小红书手艺团队对于年轻人是非常友好的,随着小红书的不断发展,有非常多的手艺场景给予了同学完整参与乃至扮演重要角色的机会,以往已经有多位手艺应届生获得了连续晋升。
伴随着小红书社区的高速增长,小红书手艺团队所能提供的人材成长空间,比以往任何时候都更加广阔,也正在等待更多优秀 AI 年青学子的加入。
小红书 2023 届校招仍有相关岗位开放内推,欢迎有志于此的你扫码参与~