ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天

在 2024 世界经济论坛的一次会谈中,图灵奖得主 Yann LeCun 提出用来处理视频的模型应该学会在抽象的表征空间中从事预测,而不是具体的像素空间

在 2024 世界经济论坛的一次会谈中,图灵奖得主 Yann LeCun 提出用来处理视频的模型应该学会在抽象的表征空间中从事预测,而不是具体的像素空间 [1]。借助文本信息的多模态视频表征进修可抽取利于视频理解或实质生成的特征,正是促进该过程的关键技术。

然而,当下视频与文本描述间广泛存在的噪声关涉现象严重阻碍了视频表征进修。因此本文中,研究者基于最优传输理论,提出鲁棒的长视频进修方案以应对该挑战。该论文被机器进修顶会 ICLR 2024 接收为了 Oral。

ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天

论文题目:Multi-granularity Correspondence Learning from Long-term Noisy Videos

论文地址:https://openreview.net/pdf?id=9Cu8MRmhq2

项目地址:https://lin-yijie.github.io/projects/Norton

代码地址:https://github.com/XLearning-SCU/2024-ICLR-Norton

背景与挑战

视频表征进修是多模态研究中最热门的问题之一。大规模视频 – 语言预训练已在多种视频理解任务中取得显著效果,例如视频检索、视觉问答、片断分割与定位等。目前大部分视频 – 语言预训练工作主要面向短视频的片断理解,忽略了长视频中存在的万古关涉与依赖。

以下图 1 所示,长视频进修核心难点是如何去编码视频中的时序动态,目前的方案主要集中于设计定制化的视频网络编码器去捕捉万古依赖 [2],但通常面临很大的资源开销。

ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天

图 1:长视频数据示例 [2]。该视频中包含了复杂的故事情节和丰富的时序动态。每个句子只能描述一个简短的片断,理解整个视频需要具有万古关涉推理能力。

由于长视频通常采用自动语言识别(ASR)得到相应的文本字幕,整个视频所对应的文本段落(Paragraph)可根据 ASR 文本时间戳切分为多个短的文本题目(Caption),同时长视频(Video)可相应切分为多个视频片断(Clip)。对视频片断与题目从事后期融合或对齐的策略相比直接编码整个视频更为高效,是万古时序关涉进修的一种优选方案。

然而,视频片断与文本句子间广泛存在噪声关涉现象(Noisy correspondence [3-4],NC),即视频实质与文本语料错误地对应 / 关涉在一起。以下图 2 所示,视频与文本间会存在多粒度的噪声关涉问题。

ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天

图 2:多粒度噪声关涉。该示例中视频实质根据文本题目切分为 6 块。(左图)绿色时间线指示该文本可与视频实质对齐,红色时间线则指示该文本无法与整个视频中的实质对齐。t5 中的绿色文本表示与视频实质 v5 有关涉的部分。(右图)虚线表示原本给定的对齐关系,红色指示原本对齐中错误的对齐关系,绿色则指示真实的对齐关系。实线表示通过 Dynamic Time Wraping 算法从事重新对齐的结果,其也未能很好地处理噪声关涉挑战。

粗粒度 NC(Clip-Caption 间)。粗粒度 NC 包括异步(Asynchronous)和不相干(Irrelevant)两类,区别在于该视频片断或题目能否与现有题目或视频片断相对应。其中「异步」指视频片断与题目间存在时序上的错位,例如图 2 中 t1。由于讲述者在实际执行动作的前后从事解释,导致陈述与行动的顺序不匹配。「不相干」则指无法与视频片断对齐的无意义题目(例如 t2 和 t6),或是无关的视频片断。根据牛津 Visual Geometry Group 的相干研究 [5],HowTo100M 数据集中只有约 30% 的视频片断与题目在视觉上是可对齐的,而仅有 15% 是原本就对齐的;

细粒度 NC(Frame-Word 间)。针对一个视频片断,可能一句文本描述中只有部分文字与其相干。在图 2 中,题目 t5 中「糖撒在上面」与视觉实质 v5 强相干,但动作「观察釉面脱落」则与视觉实质并不相干。无关的单词或视频帧可能会阻碍关键信息提取,从而影响片断与题目间的对齐。

方法

本文提出噪声鲁棒的时序最优传输(NOise Robust Temporal Optimal transport, Norton),通过视频 – 段落级对照进修与片断 – 题目级对照进修,以后期融合的方式从多个粒度进修视频表征,显著节省了训练时间开销。

ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天

                                图 3 视频 – 段落对照算法框架图。

1)视频 – 段落对照。如图 3 所示,研究者以 fine-to-coarse 的策略从事多粒度关涉进修。首先利用帧 – 词间相干性得到片断 – 题目间相干性,并进一步聚集得到视频 – 段落间相干性,最终通过视频级对照进修捕捉万古序关涉。针对多粒度噪声关涉挑战,具体应对以下:

面向细粒度 NC。研究者采用 log-sum-exp 近似作为 Soft-maximum 算子去识别帧 – 词和词 – 帧对齐中的关键词和关键帧,以细粒度的交互方式实现重要信息抽取,累计得到片断 – 题目相似性。

面向粗粒度异步 NC。研究者采用最优传输距离作为视频片断和题目之间的距离度量。给定视频片断 – 文本题目间相似性矩阵ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天,其中ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天表示片断与题目个数,最优传输目标为最大化整体对齐相似性,可天然处理时序异步或一对多(如 t3 与 v4,v5 对应)的复杂对齐情况。

ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天

其中ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天为均匀分布给予每个片断、题目同等权重,ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天为传输指派或重对齐矩,可通过 Sinkhorn 算法求解。

面向粗粒度不相干 NC。受特征匹配中 SuperGlue [6] 启发,我们设计了自适应的可对齐提示桶去尝试过滤不相干的片断与题目。提示桶是一行一列的相同值向量,拼接于相似性矩阵ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天上,其数值代表是否可对齐的相似度阈值。提示桶可无缝融入最优传输 Sinkhorn 求解中。

ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天

通过最优传输来度量序列距离,而非直接对长视频从事建模,可显著减少计算量。最终视频 – 段落损失函数以下,其中ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天表示第ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天个长视频与第ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天个文本段落间的相似性矩阵。

ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天

2)片断 – 题目对照。该损失确保视频 – 段落对照中片断与题目对齐的准确性。由于自监督对照进修会将语义相似的样本错误地作为负样本优化,我们利用最优传输识别并矫正潜在的假阴性样本:

ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天

其中ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天代表训练批次中的所有视频片断和题目个数,单位矩阵ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天代表对照进修交叉熵损失中的标准对齐目标,ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天代表融入最优传输矫正目标ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天后的重对齐目标,ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天为权重系数。

实验

本文旨在克服噪声关涉以提升模型对长视频的理解能力。我们通过视频检索、问答、动作分割等具体任务从事验证,部分实验结果以下。

1)长视频检索

该任务目标为给定文本段落,检索对应的长视频。在 YouCookII 数据集上,依据是否保留文本无关的视频片断,研究者测试了背景保留与背景移除两种场景。他们采用 Caption Average、DTW 与 OTAM 三种相似性度量准则。Caption Average 为文本段落中每个题目匹配一个最优视频片断,最终召回匹配数最多的长视频。DTW 和 OTAM 按时间顺序累计视频与文本段落间距离。结果以下表 1、2 所示。

ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天

                                表 1、2 在 YouCookII 数据集上的长视频检索性能比较

2)噪声关涉鲁棒性分析

牛津 Visual Geometry Group 对 HowTo100M 中的视频从事了手工重标注,对每个文本题目重新标注正确的时间戳。产出的 HTM-Align 数据集 [5] 包含 80 个视频与 49K 条文本。在该数据集上从事视频检索主要验证模型是否过度拟合了噪声关涉,结果以下表 9 所示。

ICLR 2024 Oral:长视频中噪声关涉进修,单卡训练仅需1天

                                            表 9 在 HTM-Align 数据集上针对噪声关涉的有效性分析

总结与展望

本文是噪声关涉进修 [3][4]—— 数据错配 / 错误关涉的深入延续,研究多模态视频 – 文本预训练面临的多粒度噪声关涉问题,所提出的长视频进修方法能够以较低资源开销扩展到更广泛的视频数据中。

展望未来,研究者可进一步探讨多种模态间的关涉问题,例如视频往往包含视觉、文本及音频信号;可尝试结合外部大语言模型(LLM)或多模态模型(BLIP-2)来清洗和重组织文本语料;以及探索将噪声作为模型训练正激励的可能性,而非仅仅抑制噪声的负面影响。

参考文献:

1. 机器之心,“Yann LeCun:生成模型不适合处理视频,AI 得在抽象空间中从事预测”,2024-01-23.

2.Sun, Y., Xue, H., Song, R., Liu, B., Yang, H., & Fu, J. (2022). Long-form video-language pre-training with multimodal temporal contrastive learning. Advances in neural information processing systems, 35, 38032-38045.

3.Huang, Z., Niu, G., Liu, X., Ding, W., Xiao, X., Wu, H., & Peng, X. (2021). Learning with noisy correspondence for cross-modal matching. Advances in Neural Information Processing Systems, 34, 29406-29419.

4.Lin, Y., Yang, M., Yu, J., Hu, P., Zhang, C., & Peng, X. (2023). Graph matching with bi-level noisy correspondence. In Proceedings of the IEEE/CVF international conference on computer vision.

5.Han, T., Xie, W., & Zisserman, A. (2022). Temporal alignment networks for long-term video. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2906-2916).

6.Sarlin, P. E., DeTone, D., Malisiewicz, T., & Rabinovich, A. (2020). Superglue: Learning feature matching with graph neural networks. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 4938-4947).

给TA打赏
共{{data.count}}人
人已打赏
应用

秘塔AI搜刮!让你的信息获取效劳提高 200%

2024-3-5 8:13:41

应用

0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR

2024-3-5 11:43:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索