AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实行室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
本文通讯作者为佐治亚理工学院计算机系博士生 Wenqi Jia(秋季起将转入伊利诺伊香槟分校),导师为 James M. Rehg 及 Danfei Xu。她的主要研究方向聚焦于第一人称视角下的人类行动分析及意图理解,曾参与 Ego4D 项目,并在 CVPR,ECCV,ACL 等顶级会议上发表多篇论文。个人主页:https://vjwq.github.io/
近年来兴起的第一人称视角视频研究为理解人类交际行动提供了无法取代的直观视角,然而,绝大多数的既往工作都侧重于分析与摄像机佩带者相关的行动,并未关注处于交际场景中其他交际工具的状态。此外,多数现有模型能理解一种交际行动旗号,而人类的实际交际行动是多样且密集的:在一个嘈杂的面对面多人对话场景中,我们总是在主动判断自己究竟在和谁说话,谁又在试图听我说话,也完全有能力推测这一群组中其他人之间的对话状态。不难想象,如果有一个算法可以帮助快速准确地做出对当前交际状态的判断,将会极大助力我们日常沟通的质量和效率。
论文地址:https://arxiv.org/abs/2312.12870
项目主页:https://vjwq.github.io/AV-CONV/
在今年 CVPR 上,来自佐治亚理工学院、Meta 和伊利诺伊香槟分校的研究者们提出了新问题:一个同时应用第一人称视角音 – 视频旗号的多模态框架是否可以像人类一样鉴别讨论组里同时存在的、错综复杂的对话状态?
第一 (Ego) — 第三 (Exo) 人称对话行动
Ego-Exo 对话图
对此,他们引入了一个有向的第一 (Ego) — 第三 (Exo) 人称对话图的概念来进行交际行动建模。与视觉干系场景图鉴别使命概念类似,这一使命旨在鉴别目标对之间的对话行动干系。具体来说,多人对话场景中包括相机佩带者在内的每一个人都被表示为一个节点(node),当给定任意两个节点 AB 时,对话图利用连接他们的有向交际干系边(directional edge)表示这个交际对之间存在怎样的倾听和讲话属性(A 是否在对 B 说话 / 倾听,反之同理)。
第一 (Ego) — 第三 (Exo) 人称对话图 两个交际对的有向交际干系边属性
多模态对话注意力方法
人类在进行多人对话的交际活动时自然地利用着音视频旗号的协同:我们需要视觉输出帮助鉴别交际工具的地位和外观,同时需要音频旗号帮助确认哪些交际工具在发言。受此启发,该研究提出了一个统一的端到端多模态框架 — 音视频对话注意力(AV-CONV),通过采用自注意力机制来建模跨时间、跨主体和全部 – 局部跨模态的表示来帮助解决这一对话图鉴别使命。
音视频对话注意力(AV-CONV)模型结构
这一框架包含了两个主要组件:1)交际工具多模态特点的生成;2)利用对话注意力模块(Conversational Attention)对多模态特点的增强,特点对的组装及输出预测。
对于每个时长为 3 秒钟的视频输出,AV-CONV 接收 6 个均匀采样的第一人称视频帧和相应的多通道音频旗号。在每一帧上,人脸检测算法帮助裁剪出所有可见的交际工具面部作为视觉旗号。同时,这些人脸在视频帧上的相对地位以二值掩膜(binary mask)的形式与音频旗号串连,生成具有地位敏感性的听觉输出。这些视觉和音频旗号由两个独立的 ResNet18 网络编码,然后连接起来形成多模态音视频特点。
对话注意力模块(Conversational Attention)细节
交际工具特点对组装及预测头
接下来,由三个双层自注意力子模块组成的对话注意力模块会从时间维度、不同交际工具维度和不同模态维度对这些多模态特点进行增强,这些特点会被直接输出一组分类器,以得到对包含相机佩带者在内的交际对的干系预测结果。
此外,任意两个交际工具特点被组合成第三人称视角下的交际特点对。它们被输出另一组分类器,以得到对不包含相机佩带者在内的其它交际对的干系预测结果。
对比及消融实行
这一方法在第一人称并发对话数据集 (Egocentric Concurrent Conversations Dataset) 上进行实行以验证其有效性。在这个数据集中,每个数据采集场景由被分为两组同时分别进行对话的 5 个人组成。该数据集收集了来自 50 名不同参与者的第一人称视频,总时长约为 20 小时。
基准比较实行结果
对比实行采用了两个相关工作的扩展变体(SAAL, ASL+Layout)作为基准。实行结果表明,AV-CONV 在所有使命和指标上都大幅领先基准值。此外,一系列针对对话注意力模块和模型输出的消融实行进一步探索了模型设计细节的有效性。
具体来说,对话注意力模块中每个组件及其不同的组合都会对整体性能产生影响。可以看到,完全去掉整个注意力模块的直接连接(DIRECT CONCAT)方法在几乎所有使命中都表现最差,而单独利用跨时间注意力(Cross-Time attention)、跨主体注意力(Cross-Subject attention)或全部 – 局部(Global-Local attention)跨模态注意力都对提升性能有积极的贡献。值得注意的是,跨时间的注意力带来了最大的增益,表明从相邻帧中聚合信息对于更可靠地检测语音活动至关重要。
针对模型输出的消融实行也揭示了不同模态对整体性能的影响。AV-CONV 的输出模态包括三个部分:1) 从第一人称视频帧裁剪的交际工具头部图象。2) 包含来自第一人称视频的多通道音频的全部特点。3) 头部图象的二值掩码,指定了帧中每个个体的地位,并作为一种介于全部和局部信息之间的表示。实行结果表明,仅利用头部图象会导致所有与说话相关的使命性能显著下降,因为理解说话行动需要音频信息的输出。另一方面,仅利用音频有助于鉴别相机佩带者的声音活动,但在其他需要与对话伙伴相关的局部特点的使命上表现不佳。仅利用地位掩码的表现与仅利用头部图象相似,但它可以通过整个场景中头部地位的抽象表示推断出交际伙伴之间的潜在干系。例如,在与倾听相关的子使命上,它的表现优于仅利用头部图象,可能是因为这些使命更多地依赖于空间中交际工具的地位信息。
在这个示例中,摄像机佩带者和其他两个交际工具同时与他人进行对话。在整个 3 秒的时间窗口内,一些发言者保持持续的对话,而其他人则暂停后继续。从预测值(黄色框)和真实值(绿色框)的对比中可以看到,AV-CONV 能够迅速捕捉到样本中发生的每一个动态演变,并给出准确的预测。
后续工作展望
受限于数据集类型和采集设备,这一工作局限于对话中的交际行动。然而提出的交际图概念可以轻松推广到对其他人类行动,如眼神交流或身体语言的分析。其他可能的后续工作包括利用大生成对话群组的提要及情感分析,以及从未经预定义群组的自由多人对话中挖掘对话群组的分裂、合并等复杂群体动态。