AI在线 AI在线

Meta 发布 WebSSL 模型:无语言视觉学习的新探索

作者:AI在线
2025-04-25 02:00
在人工智能领域,Meta 公司最近推出了 WebSSL 系列模型,这一系列模型的参数规模从3亿到70亿不等,基于纯图像数据进行训练,旨在探索无语言监督的视觉自监督学习(SSL)的巨大潜力。 这一新研究为未来的多模态任务带来了新的可能性,也为我们理解视觉表征的学习方式提供了新的视角。 过去,OpenAI 的 CLIP 模型因其在视觉问答(VQA)和文档理解等多模态任务中的优异表现而备受关注。

在人工智能领域,Meta 公司最近推出了 WebSSL 系列模型,这一系列模型的参数规模从3亿到70亿不等,基于纯图像数据进行训练,旨在探索无语言监督的视觉自监督学习(SSL)的巨大潜力。这一新研究为未来的多模态任务带来了新的可能性,也为我们理解视觉表征的学习方式提供了新的视角。

过去,OpenAI 的 CLIP 模型因其在视觉问答(VQA)和文档理解等多模态任务中的优异表现而备受关注。然而,由于数据集的获取复杂性及其规模限制,基于语言的学习方法面临诸多挑战。为了应对这一问题,Meta 决定利用自身的 MetaCLIP 数据集(MC-2B)中的20亿张图像进行训练,完全排除了语言监督的影响。这一策略让研究者们能够深入评估纯视觉自监督学习的表现,而不被数据和模型规模所限制。

image.png

WebSSL 模型采用了两种主要的视觉自监督学习范式:联合嵌入学习(DINOv2)和掩码建模(MAE)。所有模型均使用224×224分辨率的图像进行训练,同时冻结视觉编码器,从而确保结果的差异仅源于预训练策略。这一系列模型在五个容量层级(ViT-1B 至 ViT-7B)上进行训练,并通过 Cambrian-1基准测试进行评估,覆盖了通用视觉理解、知识推理、OCR(光学字符识别)和图表解读等16个 VQA 任务。

实验结果显示,随着模型参数规模的增加,WebSSL 在 VQA 任务中的表现有显著提升,尤其是在 OCR 和图表任务中,其表现甚至超越了 CLIP。此外,通过高分辨率(518px)微调,WebSSL 在文档任务中的表现也大幅提升,缩小了与一些高分辨率模型的差距。

image.png

值得一提的是,WebSSL 在无语言监督的情况下,依然展现出与一些预训练语言模型(如 LLaMA-3)良好的对齐性,这意味着大规模视觉模型能够隐式地学习与文本语义相关的特征。这为视觉与语言之间的关系提供了新的思考。

Meta 的 WebSSL 模型不仅在传统的基准测试中表现出色,也为未来无语言学习的研究开辟了新的方向。

相关资讯

Meta 联合纽约大学和华盛顿大学提出MetaCLIP,带你揭开CLIP的高质量数据之谜。

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]。自2021年诞生,CLIP已在计算机视觉识别系统和生成模型上得到了广泛的应用和巨大的成功。我们相信CLIP的创新和成功来自其高质量数据(WIT400M),而非模型或者损失函数本身。虽然3
5/3/2024 10:30:00 AM
机器之心

Meta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP

科技媒体 marktechpost 发布博文,报道称 Meta 公司发布 WebSSL 系列模型,参数规模从 3 亿到 70 亿,基于纯图像数据训练,旨在探索无语言监督的视觉自监督学习(SSL)的潜力。 以 OpenAI 的 CLIP 为代表,对比语言-图像模型已成为学习视觉表征的默认选择,在视觉问答(VQA)和文档理解等多模态任务中表现突出。 不过受到数据集获取的复杂性和数据规模的限制,语言依赖面临诸多挑战。
4/25/2025 11:55:46 AM
故渊

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线