未来,视频剪辑可能也会像视频生成领域一样迎来 AI 自动化操纵的大爆发。
这几天,AI 视频领域异常地热闹,其中 OpenAI 推出的视频生成大模型 Sora 更是火出了圈。而在视频剪辑领域,AI 尤其是大模型赋能的 Agent 也开始大显身手。
随着自然言语被用来处理与视频剪辑相关的任务,用户可以直接传达自己的意图,从而不需要手动操纵。但目前来看,大多数视频剪辑东西仍然严重依赖手动操纵,并且往往缺乏定制化的上下文接济。因此,用户只能自己处理复杂的视频剪辑问题。
关键在于如何安排一个可以充当协作者、并在剪辑过程中不断协助用户的视频剪辑东西?在本文中,来自多伦多大学、 Meta(Reality Labs Research)、加州大学圣迭戈分校的研究者提出利用大言语模型(LLM)的多功用言语能力来举行视频剪辑,并探讨了未来的视频剪辑范式,从而减少与手动视频剪辑过程的阻碍。
论文题目:LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video Editing
论文地址:https://arxiv.org/pdf/2402.10294.pdf
具体而言,研究者推出了视频剪辑东西 LAVE,它具备了一系列由 LLM 供给的言语增强功用。LAVE 引入了一个鉴于 LLM 的方案和施行智能体,该智能体可以解释用户的自由格式言语命令、举行方案和施行相关操纵以实现用户剪辑目标。智能体可以供给概念化接济(如创意头脑风暴和视频素材概览)和操纵接济(席卷鉴于语义的视频检索、故事板和剪辑修剪)。
为了使这些智能体的操纵顺利举行,LAVE 使用视觉言语模型(VLM)自动生成视频视觉效果的言语形容。这些视觉叙述使 LLM 能够理解视频内容,并利用它们的言语能力协助用户完成剪辑。此外,LAVE 供给了两种交互视频剪辑模式,即智能体协助和直接操纵。双重模式为用户供给了灵活性,并允许他们按需改进智能体操纵。
至于 LAVE 的剪辑效果怎么样?研究者对席卷剪辑新手和老手在内的 8 名参与者举行了用户研究,结果表明,参与者可以使用 LAVE 制作出令人满意的 AI 协作视频。
值得关注的是,这项研究的六位作者中有 5 位华人,席卷一作、多伦多大学计算机科学博士生 Bryan Wang、Meta 研究科学家 Yuliang Li、Zhaoyang Lv 和 Yan Xu、加州大学圣迭戈分校助理教授 Haijun Xia。
LAVE 用户界面(UI)
我们首先来看 LAVE 的系统安排,具体以下图 1 所示。
LAVE 的用户界面包含三个主要组件,分别以下:
言语增强视频库,卖弄带有自动生成的言语形容的视频片段;
视频剪辑时间轴,席卷用于剪辑的主时间轴;
视频剪辑智能体,使用户与一个会话智能体举行交互并获得接济。
安排逻辑是这样的:当用户与智能体交互时,消息交换会在聊天 UI 中卖弄。当举行相关操纵时,智能体对视频库和剪辑时间轴举行更改。此外,用户可以使用光标直接对视频库和时间轴举行操纵,类似于传统的剪辑界面。
言语增强视频库
言语增强视频库的功用以下图 3 所示。
与传统东西一样,该功用允许剪辑播放,但会供给视觉叙述,即为每一个视频自动生成文本形容,席卷语义题目和摘要。这些题目可以接济理解和索引剪辑,摘要则供给了每一个剪辑的视觉内容的概述,接济用户形成自身编写项目的故事情节。每一个视频下方都会卖弄题目和时长。
此外,LAVE 使用户可以利用语义言语查询来搜索视频,检索到的视频会在视频库中卖弄并按相关性排序。这一功用必须通过剪辑智能体来施行。
视频剪辑时间轴
从视频库中选定视频并将它添加到剪辑时间轴后,它们会卖弄在界面底部的视频剪辑时间轴上,以下图 2 所示。其中,时间轴上的每一个剪辑都由一个框表示,并卖弄三个缩略图帧,分别是开始帧、中间帧和结束帧。
在 LAVE 系统中,每一个缩略图帧代表剪辑中一秒钟的素材。与视频库一样,每一个剪辑的题目和形容都会供给。LAVE 中的剪辑时间轴具有两个关键功用,即剪辑排序和修剪。
其中在时间轴上举行剪辑排序是视频剪辑中的一项常见任务,对于创建连贯的叙述非常重要。LAVE 支持两种排序方法,一是鉴于 LLM 的排序利用视频剪辑智能体的故事板功用举行操纵,二是手动排序通过用户直接操纵来排序,拖放每一个视频框来设置剪辑出现的顺序。
修剪在视频剪辑中也很重要,可以突出卖弄关键片段并删除多余内容。在修剪时,用户双击时间轴中的剪辑,打开一个卖弄一秒帧的弹出窗口,以下图 4 所示。
视频剪辑智能体
LAVE 的视频剪辑智能体是一个鉴于聊天的组件,可促进用户和鉴于 LLM 的智能体之间的交互。与命令行东西不同,用户可以使用自由格式的言语与智能体举行交互。该智能体利用 LLM 的言语智能供给视频剪辑辅助,并供给具体的响应,以在整个编写过程中指导和接济用户。LAVE 的智能体协助功用是通过智能体操纵供给的,每一个智能体操纵都涉及施行系统支持的编写功用。
总的来说,LAVE 供给的功用涵盖了从构思和预先方案到实际编写操纵的整个工作流程,但该系统并没有强制规定严格的工作流程。用户可以灵活地利用与其编写目标相符的功用子集。例如,具有清晰编写愿景和明确故事情节的用户可能会绕过构思阶段并直接投入编写。
后端系统
该研究采用 OpenAI 的 GPT-4 来阐述 LAVE 后端系统的安排,主要席卷智能体安排、实现由 LLM 驱动的编写功用两个方面。
智能体安排
该研究利用 LLM(即 GPT-4)的多种言语能力(席卷推理、方案和讲故事)构建了 LAVE 智能体。
LAVE 智能体有两种状态:方案和施行。这种设置有两个主要好处:
允许用户设置包含多个操纵的高级目标,从而无需像传统命令行东西那样详细说明每一个单独的操纵。
在施行之前,智能体会将方案呈现给用户,供给修改的机会并确保用户可以完全控制智能体的操纵。研究团队安排了一个后端 pipeline 来完成方案和施行流程。
以下图 6 所示,该 pipeline 首先根据用户输入创建行动方案。然后,该方案从文本形容转换为函数调用,随后施行相应的函数。
实现 LLM 驱动的编写功用
为了接济用户完成视频编写任务,LAVE 主要支持五种由 LLM 驱动的功用,席卷:
素材概述
创意头脑风暴
视频检索
故事板
剪辑修剪
其中前四个可通过智能体来访问(图 5),而剪辑修剪功用可通过双击时间轴中的剪辑,打开一个卖弄一秒帧的弹出窗口(图 4)。
其中,鉴于言语的视频检索是通过向量存储数据库实现的,其余的则通过 LLM 提示工程(prompt engineering)来实现。所有功用都建立在自动生成的原始素材言语形容之上,席卷视频库中每一个剪辑的题目和摘要(图 3)。研究团队将这些视频的文字形容称为视觉叙述(visual narration)。
感兴趣的读者可以阅读论文原文,了解更多研究内容。