在视频了解这一领域,尽管多模态模型在短视频分析上取得了突破性进展,展现出了较强的了解威力,但当它们面对影戏级别的长视频时,却显得力不从心。因而,长视频的分析与了解,特别是对于长达数小时影戏实质的了解,成为了当前的一个巨大挑战。
究其原因,导致模型了解长视频困难的一个主要原因是缺乏高质量、多样化的长视频数据资源,而且收集和注释这些数据需要庞大的工作量。
面对这样的难题, 腾讯和复旦大学的研究团队提出了 MovieLLM,一个创新性的 AI 生成框架。MovieLLM 采用了创新性的法子,不仅可以生成高质量、多样化的视频数据,而且能自动生成大量与之相关的问答数据集,极大地丰富了数据的维度和深度,同时整个自动化的过程也极大地减少了人力的投入。
论文地址:https://arxiv.org/abs/2403.01422
主页地址:https://deaddawn.github.io/MovieLLM/
这一突破性的进展不仅提高了模型对复杂视频叙事的了解威力,还加强了模型针对长达数小时影戏实质的分析威力,克服了现有数据集在稀缺性和偏差方面的限制,为超长视频的了解提供了一条全新而有效的思路。
MovieLLM 奇妙地结合了 GPT-4 与分散模型强大的生成威力,应用了一种「story expanding」连续帧形貌生成策略,并通过「textual inversion」来引导分散模型生成场景一致的图片来组织出一部完整影戏的连续帧。
法子概述
MovieLLM 奇妙地结合了 GPT-4 与分散模型强大的生成威力,组织了高质量、多样性的长视频数据与 QA 问答来帮助加强大模型对长视频的了解。
MovieLLM 主要包括三个阶段:
1. 影戏情节生成。
MovieLLM 不依赖于网络或现有数据集来生成情节,而是充分利用 GPT-4 的威力来产生合成数据。通过提供特定的元素,如主题、概述和格调,引导 GPT-4 产生针对后续生成过程量身定制的影戏级关键帧形貌。
2. 格调流动过程。
MovieLLM 奇妙地使用「textual inversion」技术,将剧本中生成的格调形貌流动到分散模型的潜在空间上。这种法子指导模型在保持统一美学的同时,生成具有流动格调的场景,并保持多样性。
3. 视频指令数据生成。
在前两步的基础上,已经获得了流动的格调嵌入和关键帧形貌。鉴于这些,MovieLLM 利用格调嵌入指导分散模型生成符合关键帧形貌的关键帧并根据影戏情节逐步生成各种指令性问答对。
经过上述步骤,MovieLLM 就创建了高质量、格调多样的、连贯的影戏连续帧以及对应的问答对数据。影戏数据种类的详细分布如下:
实验结果
通过在 LLaMA-VID 这一专注于长视频了解的大模型上应用鉴于 MovieLLM 组织的数据进行微调,本文昭著加强了模型处理各种长度视频实质的了解威力。而针对于长视频了解,当前并没有工作提出测试基准,因此本文还提出了一个测试长视频了解威力的基准。
虽然 MovieLLM 并没有特别地去组织短视频数据进行训练,但通过训练,仍然观察到了在各类短视频基准上的性能提高,结果如下:
在 MSVD-QA 与 MSRVTT-QA 这两个测试数据集上相较于 baseline 模型,有昭著提高。
在鉴于视频生成的性能基准上,在五个测评方面都获得了性能提高。
在长视频了解方面,通过 MovieLLM 的训练,模型在概括、剧情以及时序三个方面的了解都有昭著提高。
此外,MovieLLM 相较于其他类似的可流动格调生成图片的法子,在生成质量上也有着较好的结果。
总之,MovieLLM 所提出的数据生成工作流程昭著降低了为模型生产影戏级视频数据的挑战难度,提高了生成实质的控制性和多样性。同时,MovieLLM 昭著加强了多模态模型对于影戏级长视频的了解威力,为其他领域采纳类似的数据生成法子提供了宝贵的参考。
对此研究感兴趣的读者可以阅读论文原文,了解更多研究实质。