模态编码器 | ALIGN，通过大规模嘈杂数据集训练的视觉语言模型

2025-04-11 02:00

简单看一下Google早期的一篇工作ALIGN，发表在2021 ICML上。研究动机：传统的视觉语言表示学习通常在手动标注的大规模数据集上进行训练，需要大量的预先处理和成本。 ALIGN利用网络上摘取的HTML页面和alt-text标签，构建了一个18亿对图像-文本的嘈杂数据集，从而在不需要昂贵的数据过滤的情况下，实现高效的学习。

简单看一下Google早期的一篇工作ALIGN，发表在2021 ICML上。

研究动机：传统的视觉语言表示学习通常在手动标注的大规模数据集上进行训练，需要大量的预先处理和成本。ALIGN利用网络上摘取的HTML页面和alt-text标签，构建了一个18亿对图像-文本的嘈杂数据集，从而在不需要昂贵的数据过滤的情况下，实现高效的学习。

01 、数据集构建

这项工作的重点是遵循构建Conceptual Captions数据集的方法，创建了一个更大规模的图像-文本数据集（18亿的图像文本对）。Conceptual Captions数据集进行了大量的数据过滤和后处理工作，与其相比，ALIGN 数据集采用了更简单的频率过滤方法，从而保留了更多噪声数据。

ALIGN 数据集过滤

基于图像的过滤：移除色情图像；保留短边大于200像素且宽高比小于3的图像；丢弃与超过1000个alt-texts关联的图像；移除测试集中的重复或近似重复的图像。

基于文本的过滤：排除被多于10个图像共享的alt-texts，这些通常与图像内容无关；丢弃包含罕见词汇（在原始数据集中100百万最频繁的单字和双字之外）的alt-texts；移除过短（少于3个单字）或过长（超过20个单字）的alt-texts。

Conceptual Captions数据集构建步骤

数据来源：Web 数据爬取：数据集的图像和标题主要来源于互联网上的图片，特别是带有 alt 标签的图像。alt 标签通常用于描述图像内容，以便在图像无法加载时提供替代文本。Common Crawl：具体来说，数据集使用了 Common Crawl 的网页抓取数据，这是一个开放的、大规模的网页抓取数据库。
初步筛选：图像质量检查：移除质量较差的图像，例如尺寸过小（短边小于 200 像素）、长宽比过大（大于 3）的图像。重复图像移除：移除重复或近似重复的图像，以避免数据冗余。
标题质量检查：长度筛选：移除过短或过长的标题，确保标题具有一定的描述性。语言检查：确保标题是英文的，并且语法和拼写正确。内容相关性：通过自然语言处理技术检查标题与图像内容的相关性，移除不相关的标题。
人工审核：质量控制：通过人工审核进一步确保图像和标题的质量，移除不适当或无关的内容。多样性增强：人工审核还可以帮助增加数据集的多样性，确保覆盖各种主题和场景。
最终清洗：去噪：通过一系列自动和手动的方法进一步去除噪声数据，确保数据集的高质量。平衡：调整数据集中的类别分布，使其更加平衡，避免某些类别的过度代表。

02、模型架构

双编码器架构：模型由两个编码器组成，一个是图像编码器，另一个是文本编码器。这两个编码器通过一个对比损失函数进行联合训练，以对齐图像和文本的表示。

图像编码器：使用EfficientNet作为基础模型，通过全局池化层提取特征（不训练分类头中的1x1卷积层）。
文本编码器：使用BERT作为基础模型，通过[CLS]标记的嵌入来获取文本的表示。词汇表是通过训练数据生成的100k词片（wordpieces）。
维度对齐：在BERT编码器的输出上添加一个全连接层，以匹配图像编码器的输出维度。

对比损失函数：模型使用归一化的softmax损失函数进行优化。在训练过程中，匹配的图像-文本对被视为正样本，而同一个批次中随机配对的图像-文本对被视为负样本。

03、实验结果

Crisscrossed Captions (CxC) 数据集用于评估模型在跨模态检索任务中的表现，特别是图像到文本 (image-to-text) 和文本到图像 (text-to-image) 检索。ALIGN 在多个跨模态检索任务中表现出色。

STS 任务的目标是测量两个文本片段之间的语义相似度。这个任务通常用于评估模型在理解文本语义方面的表现。

SIS 任务的目标是测量两张图片之间的语义相似度。这个任务用于评估模型在理解图像内容方面的表现。

SITS 任务的目标是测量一张图片和一段文本之间的语义相似度。这个任务用于评估模型在理解和匹配不同模态（图像和文本）之间的语义关系方面的能力。

Spearman 相关系数用于衡量两个变量之间的单调关系，这里用来评估模型在不同任务上的表现一致性。

ALIGN 在所有子任务上的平均得分最高，尤其是 SITS 任务上，比前一个最佳模型提高了 5.7%。然而，ALIGN 在 STS 和 SIS 任务上的表现不如 VSE++ 和 DEI2T，这可能是因为 ALIGN 的训练目标主要集中在跨模态匹配上，而不是同模态匹配。

在零样本分类任务中，ALIGN 表现稳健，在传统的图像分类任务中，ALIGN 达到了与现有最佳模型相当甚至更好的性能，同时在计算效率上更具优势。

VTAB 是一个包含 19 个任务的多任务基准，用于评估模型在各种视觉任务上的泛化能力。ALIGN 在多任务基准 VTAB 上表现优秀，显示出其在多种视觉任务上的强大泛化能力。

在细粒度分类任务中，ALIGN 虽然在某些任务上略逊于最先进的模型，但总体表现仍然非常出色。

04、总结

google一贯作风，大力出奇迹。证明了带有Noise data的数据只要规模够大，也是可以促进模型的学习。

全模态对齐框架align-anything来了：实现跨模态指令跟随

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

10/17/2024 5:56:00 PM

机器之心

火山引擎论文入选国际会议ACM MM'24｜对齐人类主观偏好的图像质量评价方法

会议背景2024年10月28日至11月1日，ACM Multimedia(ACM MM) 2024在澳大利亚墨尔本召开，该会议是中国计算机学会(CCF)推荐的多媒体领域的A类国际学术会议。 2024年共4395篇参与审稿，最终录用1149篇论文，录用率26.1%。火山引擎-流媒体技术与湖南工商大学、湘江实验室合作的论文"Align-IQA: Aligning Image Quality Assessment Models with Diverse Human Preferences via Customizable Guidance" 被ACM Multimedia 2024 收录。

12/23/2024 4:16:39 PM

流媒体技术

模态编码器|CLIP详细解读

下面来详细了解一下多模态大模型模态编码器部分。今天首先来看下CLIP，OpenAI发表在2021年ICML上的一篇工作。项目地址：：在自然语言处理（NLP）领域，通过大规模的文本数据预训练模型（如GPT-3）已经取得了显著的成果，但在计算机视觉领域，预训练模型仍然依赖于人工标注的图像数据集，严重影响了其在未见类别上的泛化性和可用性（需要用额外的有标注数据）。

4/7/2025 3:30:00 AM

Goldma

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用全日程揭晓！ICLR 2025论文分享会我们北京见「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本人形机器人 xAI 搜索大语言模型 Copilot 字节跳动神器推荐 LLaMA 具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部