引入多感官数据进修,华人学者Ruohan Gao摘得2021 UT-Austin最佳博士论文奖

UT-Austin 本年度的最佳博士论文奖得到者 Ruohan Gao,目前是斯坦福大学的博士后钻研员。

引入多感官数据进修,华人学者Ruohan Gao摘得2021 UT-Austin最佳博士论文奖

今年 5 月,德克萨斯大学奥斯汀分校(UT-Austin)钻研生院公布了 2021 年度各个专业和学生奖项的获奖者。这些奖项旨在表彰钻研生院成员在学术、教学和专业服务方面的卓越表现。

在本年度的评选中,华人学者 Ruohan Gao 的博士学位论文《Look and Listen: From Semantic to Spatial Audio-Visual Perception》得到了 Michael H. Granof 奖。

引入多感官数据进修,华人学者Ruohan Gao摘得2021 UT-Austin最佳博士论文奖

杰出博士论文奖设立于 1979 年,旨在表彰出色的钻研以及鼓励最高的钻研、写作、学术水平。每年颁发三个奖项,其中一篇会被选中得到该校的最佳论文奖「Michael H. Granof 奖」。杰出论文奖得到者将得到 5000 美元奖金,Granof 奖得到者得到 6000 美元奖金。

Ruohan Gao

引入多感官数据进修,华人学者Ruohan Gao摘得2021 UT-Austin最佳博士论文奖

Ruohan Gao2015 年于香港中文大学(CUHK)信息工程系得到一等荣誉学位,导师为刘永昌(Wing Cheong Lau)教授。

博士期间,Ruohan Gao 师从 Kristen Grauman 教授。他的钻研兴趣是计算机视觉、机器进修、数据挖掘等,特别是视频中的多模态进修和多模态下的 embodied learning。2021 年初,Ruohan Gao 从德克萨斯大学奥斯汀分校得到博士学位。

目前,Ruohan Gao 是斯坦福大学视觉与进修实验室(SVL)的博士后钻研员。

此外,Ruohan Gao 还得到过谷歌博士生奖研金(Google Ph.D Fellowship)、Adobe 钻研奖研金(Adobe Research Fellowship)等荣誉。

这篇论文钻研了什么?

引入多感官数据进修,华人学者Ruohan Gao摘得2021 UT-Austin最佳博士论文奖

论文链接:https://ai.stanford.edu/~rhgao/Ruohan_Gao_dissertation.pdf

了解场景和事件本质上是一种多模态经验。人们通过观察、倾听 (以及触摸、嗅和品尝) 来感知全国,特别是物体发出的声音,无论是主动产生的还是偶然发出的,都提供了关于自身物理属性和空间位置的有价值的旌旗灯号,正如钹在舞台上撞击,鸟在树上鸣叫,卡车沿着街区疾驰,银器在抽屉里叮当作响……

尽管通过「看」,也就是根据物体、行为或人的外表检测的识别取得了重大进展,但它往往不能够「听」。在这篇论文中,作家证明了与视觉场景和事件同步的音频可以作为丰富的训练旌旗灯号来源,用于进修 (视听) 视觉模型。此外,作家开发了计算模型,操纵音频中的语义和空间旌旗灯号,从连续的多模态观测中了解人、地点和事物。

引入多感官数据进修,华人学者Ruohan Gao摘得2021 UT-Austin最佳博士论文奖

当前大多数计算机视觉系统的现状是从大量「无声」数据集的符号图像中进修,而该论文钻研目标是既要会倾听,又要了解视觉全国。

作家表示,受到人类操纵所有感官对全国进行感知的启发,自己的长期钻研目标是建立一个系统,通过结合所有的多感官输入,能够像人类一样感知全国。在论文的最后一章,作家概述了在此博士论文之外希望追求的未来钻研方向。

引入多感官数据进修,华人学者Ruohan Gao摘得2021 UT-Austin最佳博士论文奖

图 1.2: 音频本身是一个监视旌旗灯号,用于语义和空间了解。

钻研的首要目标是从视频和嵌入智能体中复现视听模型: 当多个声源存在时,算法如何知道发声对象是什么以及在哪里?这些视听模型如何在传统的视听任务有所提升?为了解决这些问题,该钻研操纵了音频中的语义和空间旌旗灯号,从连续的多模态观测中了解人、地点和事物(图 1.2)。

这篇论文钻研了以下四个重要问题,以逐步接近视听场景综合了解的最终目标:

同时观看和聆听包含多个声源的未符号视频,以进修音视频源分离模型(第 3 章、第 4 章和第 5 章);

操纵音频作为预览机制,在未修剪的视频中实现高效的动作识别(第 6 章);

操纵未符号视频中的视觉信息推断双耳音频,将平面单声道音频「提升」为空间化的声音(第 7 章);

通过回声定位进修空间图像表征,监测来自与物理全国的声学互动(第 8 章)。

作家表示,本论文对视听进修的钻研,体现了无监视或自监视的多感官数据进修对人工智能的未来发展具有积极而重要的意义。

更多细节请参见论文原文。

给TA打赏
共{{data.count}}人
人已打赏
AI

离群?异样?新类?开集?散布外检测?一文搞懂其间异同!

2021-10-24 13:24:00

AI

归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3

2021-10-27 16:53:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索