AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了

Vista-LLaMA 在处置惩罚长视频实质方面的昭著优势,为视频分析畛域带来了新的解决框架。近年来,大型言语模型如 GPT、GLM 和 LLaMA 等在自然言语处置惩罚畛域取得了昭著进展,基于深度学习技术可以或许明白和生成庞杂的文本实质。然而,将这些本领扩展到视频实质明白畛域则是一个全新的挑战 —— 视频不仅包含丰富多变的视觉信息,还涉及时间序列的动态变化,这使得大言语模型从视频中提取信息变得更为庞杂。面对这一挑战,字节跳动联合浙江大学提出了可以或许输出可靠视频形容的多模态大言语模型 Vista-LLaMA。Vista-LLaM

Vista-LLaMA 在处置惩罚长视频实质方面的昭著优势,为视频分析畛域带来了新的解决框架。

近年来,大型言语模型如 GPT、GLM 和 LLaMA 等在自然言语处置惩罚畛域取得了昭著进展,基于深度学习技术可以或许明白和生成庞杂的文本实质。然而,将这些本领扩展到视频实质明白畛域则是一个全新的挑战 —— 视频不仅包含丰富多变的视觉信息,还涉及时间序列的动态变化,这使得大言语模型从视频中提取信息变得更为庞杂。

面对这一挑战,字节跳动联合浙江大学提出了可以或许输出可靠视频形容的多模态大言语模型 Vista-LLaMA。Vista-LLaMA 专门针对视频实质的庞杂性设计,可以或许有效地将视频帧转换为准确的言语形容,从而极大地提高了视频实质分析和生成的质量。

AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了

论文主页:https://jinxxian.github.io/Vista-LLaMA/

AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了

图 1

技术创新路径

现有多模态视觉与言语模型在处置惩罚视频实质时,通常将视频帧转化为一系列的视觉 token,并与言语 token 结合以生成文本。然而,随着生成文本长度的增加,视频实质的影响往往逐渐减弱,导致生成的文本越来越多地偏离原视频实质,产生所谓的 “幻觉” 现象。

Vista-LLaMA 通过创新的方式处置惩罚视频和文本间的庞杂互动,突破了传统视频言语模型的限制。Vista-LLaMA 的核心创新在于其独特的视觉与言语 token 处置惩罚方式。不同于其他模型,它通过维持视觉和言语 token 间的均等距离,有效避免了文本生成中的偏差,尤其是在长文本中更为昭著。这种方法大幅提高了模型对视频实质的明白深度和准确性。

AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了

图 2

Vista-LLaMA 采用了一种改良的注意力机制 —— 视觉等距离 token 注意力(EDVT),它在处置惩罚视觉与文本 token 时去除了传统的相对位置编码,同时保留了文本与文本之间的相对位置编码。EDVT 机制通过特定的函数处置惩罚隐藏层输出,有效区分视觉 token 来源。

AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了

具体而言,它首先对输出进行查询、键和值的映照转换,接着对查询和键输出应用旋转位置编码(RoPE),分别计算带 RoPE 和不带 RoPE 的注意力权重。随后,根据视觉 token 的存在与否合并这两种注意力权重,通过 softmax 函数实现注意力的归一化,并最终通过基于注意力权重的线性映照更新表示,生成输出结果。这种创新使得多模态大言语模型可以或许更加关注视频的实质,尤其在庞杂的视频场景中,可以或许有效地捕捉关键视觉元素,提升了文本生成的质量和相关性。

AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了

图 3

同时,该模型引入的序列化视觉投影器为视频中的时间序列分析提供了新的视角,它不仅可以或许处置惩罚当前视频帧,还能利用前一帧的信息,从而增强视频实质的连贯性和时序逻辑。

视觉投影器的作用是将视频特征映照到言语嵌入空间,以便大型言语模型融合和处置惩罚视觉与文本输出。如图 4 所示,早期的视觉投影器通常使用线性层或查询转换器(Q-Former)直接将帧特征转换为言语 token。然而,这些方法忽略了时间关系,限制了言语模型对视频的全面明白。Vista-LLaMA 中引入了序列化视觉投影器,它通过线性投影层编码视觉 token 的时间上下文,增强了模型对视频动态变化的明白本领,这对于提升视频实质分析的质量至关重要。

AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了

图 4

 

基准尝试结果

Vista-LLaMA 在多个开放式视频问答基准尝试中展现了卓越性能。它在 NExT-QA 和 MSRVTT-QA 尝试中取得了突破性成绩,这两个尝试是衡量视频明白和言语生成本领的关键标准。在零样本 NExT-QA 尝试中,Vista-LLaMA 实现了 60.7% 的准确率。而在 MSRVTT-QA 尝试中达到了 60.5% 的准确率,超过了目前所有的 SOTA 方法。这些成绩在行业中属于先进水平,昭著超越了其他 SOTA 模型,如 Video-ChatGPT 和 MovieChat。

AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了

图 5

AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了

这些尝试结果证明了 Vista-LLaMA 在视频实质明白和形容生成方面的高效性和精准性,Vista-LLaMA 可以或许准确明白和形容视频实质,显示了其强大的泛化本领。这些成绩不仅展示了 Vista-LLaMA 在明白庞杂视频实质方面的本领,还证明了其在多模态言语处置惩罚畛域的领先地位。

 

数据集:CineClipQA

AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了

图 6

与 Vista-LLaMA 一同提出的还有 CineClipQA 新数据集。

CineClipQA 包含了 153 个精选视频片断,这些片断来自五部风格和叙事手法各异的电影。每个片断代表电影情节的一个或多个独特部分,并附有 16 个量身定制的题目,共计 2448 个题目。题目分为系统提示和题目两部分:

系统提示提供了当前视频片断中关键角色的基本信息,并在必要时为角色的初始口头提供提示。

题目主要分为五类:识别、时间性(预测)、空间性(互动)、意图和感知。具体来说,识别包括地点和口头的题目;时间性涉及下一个口头、之前的口头、同时发生的口头和预测口头的题目;空间性涉及物体与人之间的空间信息题目;意图涉及口头目的地三种相似题目;最后,感知检查情感识别和询问 “如何”(方式、态度等)。

该研究还提供了所有 16 种类型的详细解释和相应案例。在 CineClipQA 数据集中,Vista-LLaMA 也表现出了卓越的性能。

AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了

图 7

简言之,Vista-LLaMA 在处置惩罚长视频实质方面的昭著优势,为视频分析畛域带来了新的解决框架,推动人工智能在视频处置惩罚和实质创作方面的发展,预示着未来多模态交互和自动化实质生成畛域的广泛机遇。

更多详情,请访问项目页面 [https://jinxxian.github.io/Vista-LLaMA]。

关于字节跳动智能创作团队

智能创作团队是字节跳动音视频创新技术和业务中台,覆盖了计算机视觉、图形学、语音、拍摄编辑、特效、客户端、服务端工程等技术畛域,借助字节跳动丰富的业务场景、基础设施资源和良好的技术协作氛围,实现了前沿算法 – 工程系统 – 产品全链路的闭环,旨在以多种形式向公司内部各业务线以及外部合作客户提供业界前沿的实质明白、实质创作、互动体验与消费的本领和行业解决方案。

目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术本领和服务。

给TA打赏
共{{data.count}}人
人已打赏
应用

顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成真切心情与举动

2024-1-8 14:35:00

应用

吃了几个原作者才能生成这么逼真的效果?文生图涉嫌视觉「剽窃」

2024-1-8 15:09:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索