简单看一下Google早期的一篇工作ALIGN,发表在2021 ICML上。
研究动机:传统的视觉语言表示学习通常在手动标注的大规模数据集上进行训练,需要大量的预先处理和成本。ALIGN利用网络上摘取的HTML页面和alt-text标签,构建了一个18亿对图像-文本的嘈杂数据集,从而在不需要昂贵的数据过滤的情况下,实现高效的学习。
01 、数据集构建
这项工作的重点是遵循构建Conceptual Captions数据集的方法,创建了一个更大规模的图像-文本数据集(18亿的图像文本对)。Conceptual Captions数据集进行了大量的数据过滤和后处理工作,与其相比,ALIGN 数据集采用了更简单的频率过滤方法,从而保留了更多噪声数据。
ALIGN 数据集过滤
基于图像的过滤:移除色情图像;保留短边大于200像素且宽高比小于3的图像;丢弃与超过1000个alt-texts关联的图像;移除测试集中的重复或近似重复的图像。
基于文本的过滤:排除被多于10个图像共享的alt-texts,这些通常与图像内容无关;丢弃包含罕见词汇(在原始数据集中100百万最频繁的单字和双字之外)的alt-texts;移除过短(少于3个单字)或过长(超过20个单字)的alt-texts。
Conceptual Captions数据集构建步骤
- 数据来源:Web 数据爬取:数据集的图像和标题主要来源于互联网上的图片,特别是带有 alt 标签的图像。alt 标签通常用于描述图像内容,以便在图像无法加载时提供替代文本。Common Crawl:具体来说,数据集使用了 Common Crawl 的网页抓取数据,这是一个开放的、大规模的网页抓取数据库。
- 初步筛选:图像质量检查:移除质量较差的图像,例如尺寸过小(短边小于 200 像素)、长宽比过大(大于 3)的图像。重复图像移除:移除重复或近似重复的图像,以避免数据冗余。
- 标题质量检查:长度筛选:移除过短或过长的标题,确保标题具有一定的描述性。语言检查:确保标题是英文的,并且语法和拼写正确。内容相关性:通过自然语言处理技术检查标题与图像内容的相关性,移除不相关的标题。
- 人工审核:质量控制:通过人工审核进一步确保图像和标题的质量,移除不适当或无关的内容。多样性增强:人工审核还可以帮助增加数据集的多样性,确保覆盖各种主题和场景。
- 最终清洗:去噪:通过一系列自动和手动的方法进一步去除噪声数据,确保数据集的高质量。平衡:调整数据集中的类别分布,使其更加平衡,避免某些类别的过度代表。
02、模型架构
双编码器架构:模型由两个编码器组成,一个是图像编码器,另一个是文本编码器。这两个编码器通过一个对比损失函数进行联合训练,以对齐图像和文本的表示。
- 图像编码器:使用EfficientNet作为基础模型,通过全局池化层提取特征(不训练分类头中的1x1卷积层)。
- 文本编码器:使用BERT作为基础模型,通过[CLS]标记的嵌入来获取文本的表示。词汇表是通过训练数据生成的100k词片(wordpieces)。
- 维度对齐:在BERT编码器的输出上添加一个全连接层,以匹配图像编码器的输出维度。
对比损失函数:模型使用归一化的softmax损失函数进行优化。在训练过程中,匹配的图像-文本对被视为正样本,而同一个批次中随机配对的图像-文本对被视为负样本。
03、实验结果
Crisscrossed Captions (CxC) 数据集用于评估模型在跨模态检索任务中的表现,特别是图像到文本 (image-to-text) 和文本到图像 (text-to-image) 检索。ALIGN 在多个跨模态检索任务中表现出色。
STS 任务的目标是测量两个文本片段之间的语义相似度。这个任务通常用于评估模型在理解文本语义方面的表现。
SIS 任务的目标是测量两张图片之间的语义相似度。这个任务用于评估模型在理解图像内容方面的表现。
SITS 任务的目标是测量一张图片和一段文本之间的语义相似度。这个任务用于评估模型在理解和匹配不同模态(图像和文本)之间的语义关系方面的能力。
Spearman 相关系数用于衡量两个变量之间的单调关系,这里用来评估模型在不同任务上的表现一致性。
ALIGN 在所有子任务上的平均得分最高,尤其是 SITS 任务上,比前一个最佳模型提高了 5.7%。然而,ALIGN 在 STS 和 SIS 任务上的表现不如 VSE++ 和 DEI2T,这可能是因为 ALIGN 的训练目标主要集中在跨模态匹配上,而不是同模态匹配。
在零样本分类任务中,ALIGN 表现稳健,在传统的图像分类任务中,ALIGN 达到了与现有最佳模型相当甚至更好的性能,同时在计算效率上更具优势。
VTAB 是一个包含 19 个任务的多任务基准,用于评估模型在各种视觉任务上的泛化能力。ALIGN 在多任务基准 VTAB 上表现优秀,显示出其在多种视觉任务上的强大泛化能力。
在细粒度分类任务中,ALIGN 虽然在某些任务上略逊于最先进的模型,但总体表现仍然非常出色。
04、总结
google一贯作风,大力出奇迹。证明了带有Noise data的数据只要规模够大,也是可以促进模型的学习。