AIxiv专栏是机器之心发布学术、技术实质的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇实质,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
本文作家来自上海交通大学,清华大学,剑桥大学和上海野生智能实验室。一作陈哲为上海交通大学博一学生,师从上海交通大学野生智能学院王钰教授。通讯作家为王钰教授(主页:https://yuwangsjtu.github.io/)与清华大学电子工程系张超教授(主页:https://mi.eng.cam.ac.uk/~cz277)。
论文链接:https://arxiv.org/abs/2403.14168
项目主页:https://jack-zc8.github.io/M3AV-dataset-page/
论文标题:M3AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset
摘要
开源学术讲演录像是一种普遍流行的在线分享学术学问的方法。这些视频蕴含丰富的多模态信息,包括讲演者的语音、面部表情和身体动作,幻灯片中的文本和图片,和对应的论文文本信息。目前很少有数据集能够同时支持多模态实质辨认和明白恣意,部分原因是缺乏高质量的野生标注。
该工作提出了一个新的多模态、多类型、多用途的视听学术讲演数据集(M3AV),它蕴含来自五个来源的近 367 小时的视频,涵盖计算机科学、数学、医学和生物学主题。凭借高质量的野生标注,特别是高价值的命名实体,数据集可以用于多种视听辨认和明白恣意。在上下文语音辨认、语音分解以及幻灯片和底本生成恣意上进行的评估表明,M3AV 的多样性使其成为一个具有挑战性的数据集。目前该工作已被 ACL 2024 主会接收。
数据集信息
M3AV 数据集主要由以下几个部分组成:
1. 带有复杂块的幻灯片,它们将会被按照空间位置关系进行合并。
2. 口语和书面形式的,蕴含特殊词汇以及单词级时间戳的语音转写文本。
3. 视频对应的论文文本。
从下表可以看出,M3AV 数据集蕴含最多野生标注的幻灯片、语音和论文资源,因此不仅支持多模态实质的辨认恣意,还支持高级学术学问的明白恣意。
同时,M3AV 数据集在各方面与其他学术数据集相比,实质较为丰富,同时也是可访问的资源。
实验恣意
M3AV 数据集在多模态感知与明白方面设计了三个恣意,分别是基于上下文的语音辨认、自觉风格的语音分解、幻灯片与底本生成。
恣意一:基于上下文的语音辨认
一般的端到端模型在稀有词辨认上存在问题。从下表的 AED 和 RNN-T 模型可以看出,稀有词词错率(BWER)与全部词错率(WER)相比,增加了两倍以上。通过使用 TCPGen 利用 OCR 信息来进行基于上下文的语音辨认,RNN-T 模型在开发和测试集上的 BWER 分别有相对 37.8% 和 34.2% 的降低。
恣意二:自觉风格的语音分解
自觉风格的语音分解系统迫切地需求真实场景下的语音数据,以产生更接近自然会话模式的语音。论文作家引入了 MQTTS 作为实验模型,可以发现与各个预训练模型相比,MQTTS 的各项评估指标最佳。这表明 M3AV 数据集中的真实语音可以驱动 AI 系统模拟出更自然的语音。
恣意三:幻灯片与底本生成
幻灯片和底本生成(SSG)恣意旨在促进 AI 模型明白和重建先进的学术学问,从而帮助研究人员处理快速更新迭代的学术资料,有效地开展学术研究。
从下表可以看出,开源模型(LLaMA-2, InstructBLIP)在从 7B 晋升到 13B 时,性能晋升有限,落后于闭源模型(GPT-4 和 GPT-4V)。因此,除了晋升模型尺寸,论文作家认为还需要有高质量的多模态预训练数据。值得注意的是,先进的多模态大模型(GPT-4V)已经超过了由多个单模态模型组成的级联模型。
此外,检索增强生成(RAG)有效晋升了模型性能:下表显示,引入的论文文本同时晋升了生成的幻灯片与底本的质量。
结论
这篇工作发布了涵盖多个学术领域的多模态、多类型、多用途视听数据集(M3AV)。该数据集蕴含野生标注的语音转录、幻灯片和额外提取的论文文本,为评估 AI 模型辨认多模态实质和明白学术学问的能力提供了基础。论文作家详细介绍了创建流程,并对该数据集进行了各种分析。此外,他们构建了基准并围绕数据集进行了多项实验。最终,论文作家发现现有的模型在感知和明白学术讲演视频方面仍有较大的晋升空间。
部分标注界面