Llama都在用的RoPE有了视频版,复旦上海AI Lab等提出长视频理解/检索绝佳拍档

Llama都在用的RoPE(旋转位置嵌入)被扩展到视频领域,长视频理解和检索更强了。 复旦大学、上海AI实验室等提出VideoRoPE,并确定了将RoPE有效应用于视频所需的四个关键特性。 在长视频检索、视频理解和视频幻觉等各种下游任务中,VideoRoPE始终优于先前的RoPE变体。

Llama都在用的RoPE(旋转位置嵌入)被扩展到视频领域,长视频理解和检索更强了。

复旦大学、上海AI实验室等提出VideoRoPE,并确定了将RoPE有效应用于视频所需的四个关键特性。

在长视频检索、视频理解和视频幻觉等各种下游任务中,VideoRoPE始终优于先前的RoPE变体。

图片图片

用三维结构保留时空关系

RoPE是一种能够将相对位置信息依赖集成到self-attention中并提升transformer架构性能的位置编码方式。

RoPE及其变体因其长上下文处理能力而被广泛采用,但将一维RoPE扩展到具有复杂时空结构的视频领域仍然是一个悬而未决的挑战。

作为分析的一部分,这项工作引入了一个具有挑战性的V-NIAH-D(带干扰项的视觉大海捞针)任务,该任务在V-NIAH任务的基础上增加了周期性干扰项。

V-NIAH-D任务表明,先前缺乏适当时间维度分配的RoPE变体很容易被干扰项误导。基于分析,作者提出了VideoRoPE,它具有三维结构,旨在保留时空关系

VideoRoPE的特点包括低频时间分配以减轻周期性碰撞、对角布局以保持空间对称性,以及可调整的时间间隔以解耦时间和空间索引。

图片图片

左图:为了展示频率分配的重要性,基于VIAH(a),作者提出了一个更具挑战性的V-NIAH-D任务(b),其中插入了相似图像作为干扰项。

右图:与M-RoPE相比,VideoRoPE在检索中更具鲁棒性,并且不容易受到干扰项的影响。

图片图片

上图:M-RoPE的时间维度局限于局部信息,导致对角线布局。

下图:VideoRoPE有效利用时间维度进行检索。

M-RoPE在定位目标图像上有效,但在多选问题中表现不佳,因为它主要通过垂直位置编码来定位图像,而非时间特征,导致时间维度未能捕捉长距离依赖关系,关注局部信息。相比之下,空间维度则捕捉长距离语义信息,导致M-RoPE在频率分配设计上表现较差。

VideoRoPE设计

作者团队提出了VideoRoPE,一种视频位置嵌入策略,优先考虑时间建模,通过低频时间分配(LTA)减少振荡并确保鲁棒性。它采用对角线布局(DL)以保持空间对称性,并引入可调时间间隔(ATS)来控制时间间隔。VideoRoPE有效地建模了时空信息,从而实现了鲁棒的视频位置表示。

1、低频时间分配(LTA):

考虑一个基于RoPE的LLM,头部维度为128,对应64个旋转角度θn,分布在不同维度上。每个图示中,用平行的蓝色平面表示cos(θnt)在3维上的表现。

(a)对于M-RoPE,时间依赖性由前16个高频旋转角度建模,导致振荡和位置信息失真。低维度间隔较短,振荡周期性使得远距离位置可能具有相似信息,类似哈希碰撞(如红色平面所示),容易引发干扰,误导模型。

(b)相比之下,VideoRoPE通过最后16个旋转角度建模时间依赖性,具有更宽的单调间隔。时间建模不再受振荡影响,显著抑制了干扰项的误导效应。2、对角线布局(DL):

图片图片

原始1D RoPE(Su et al., 2024)未包含空间建模。M-RoPE(Wang et al., 2024b)虽然采用3D结构,但引入了不同帧间视觉标记索引的差异。

相比之下,VideoRoPE实现了平衡,保留了原始RoPE一致的索引增长模式,并引入了空间建模。优点包括:1)保留视觉标记的相对位置,避免文本标记过于接近角落;2)保持原始RoPE编码形式,相邻帧的空间位置信息增量与文本标记增量一致。

3、可调时间间隔(ATS):

为了缩放时间索引,作者团队引入缩放因子δ来对齐视觉和文本标记之间的时间信息。假设τ为标记索引,起始文本(0≤τ<Ts)的时间、水平和垂直索引为原始标记索引τ。对于视频输入(Ts≤τ<Ts+Tv),τ−Ts表示当前帧相对于视频开始的索引,通过δ缩放控制时间间距。

对于结束文本(Ts+Tv≤τ<Ts+Tv+Te),时间、水平和垂直索引保持不变,形成线性进展。根据可调节的时间间距设计,视频位置编码(VideoRoPE)中τ-th文本标记或(τ,w,h)-th视觉标记的位置信息(t,x,y)如式(7)所示。

其中,w和h分别表示视觉块在帧中的水平和垂直索引。

相邻文本标记的位置信息嵌入对于Vanilla RoPE(顶部行)、相邻帧中对应的视觉标记对于M-RoPE(中间行)以及我们设计的带有交错水平垂直排布和时间维度放后面设计的VideoRoPE(底部行)。

优于其他RoPE变体

长视频检索任务:

作者团队展示了VideoRoPE与其他RoPE变体在V-NIAH和V-NIAH-D上的性能。V-NIAH-D比V-NIAH更具挑战性。Vanilla RoPE和TAD-RoPE在视觉训练上下文外具备一定外推能力,但超出极限后失效。相比之下,VideoRoPE和M-RoPE在测试上下文内表现优越,且VideoRoPE始终优于M-RoPE,展现出更强鲁棒性。

长视频理解任务:

如表所示,作者团队在三个长视频理解基准上比较了VideoRoPE与现有RoPE变体(Vanilla RoPE、TAD-RoPE和M-RoPE)。VideoRoPE在这些基准上优于所有基线方法,展示了其鲁棒性和适应性。在LongVideoBench、MLVU和Video-MME上,VideoRoPE在64k上下文长度下分别比M-RoPE提高了2.91、4.46和1.66分,突显了其在捕捉长距离依赖关系和处理具有挑战性的视频任务中的卓越能力。

视频幻觉任务:

在VideoHallucer基准测试中,作者团队的VideoRoPE显著优于现有RoPE方法。特别是在时间幻觉任务中,VideoRoPE提升了29.5%,展示了更强的时间依赖关系捕捉能力,适合处理动态视频序列。在空间方面,VideoRoPE在对象-关系幻觉任务中提升了18.0%,突显了其辨识复杂空间交互的能力。这些结果强调了VideoRoPE在视频幻觉问题上的鲁棒性和实际应用潜力。

总结

本文确定了有效位置编码的四个关键标准:2D/3D结构、频率分配、空间对称性和时间索引缩放。通过V-NIAH-D任务,作者展示了先前RoPE变体因缺乏适当的时间分配而易受干扰。

因此,提出了VideoRoPE,采用3D结构保持时空一致性,低频时间分配减少振荡,对角布局实现空间对称性,并引入可调节时间间距。VideoRoPE在长视频检索、视频理解和视频幻觉任务中优于其他RoPE变体。

Paper:https://arxiv.org/pdf/2502.05173Project Page:https://wiselnn570.github.io/VideoRoPE/Code:https://github.com/Wiselnn570/VideoRoPE/

相关资讯