谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集,这是一个包含1000亿个图像 - 文本对的庞大数据集,旨在增强人工智能视觉语言模型的文化多样性和多语言性。 通过这一数据集,研究人员希望改善视觉语言模型在不同文化和语言环境下的表现,同时减少各个子组之间的性能差异,从而提升人工智能的包容性。 视觉语言模型(VLMs)依赖于大量数据集来学习如何连接图像与文本,从而执行如图像字幕生成和视觉问答等任务。

谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集,这是一个包含1000亿个图像 - 文本对的庞大数据集,旨在增强人工智能视觉语言模型的文化多样性和多语言性。通过这一数据集,研究人员希望改善视觉语言模型在不同文化和语言环境下的表现,同时减少各个子组之间的性能差异,从而提升人工智能的包容性。

QQ_1739519411614.png

视觉语言模型(VLMs)依赖于大量数据集来学习如何连接图像与文本,从而执行如图像字幕生成和视觉问答等任务。过去,这些模型主要依赖于 Conceptual Captions 和 LAION 等大型数据集,虽然这些数据集包含了数百万到数十亿的图像 - 文本对,但它们的进展速度已放缓至100亿对的规模,这对进一步提高模型的准确性和包容性形成了限制。

WebLI-100B 数据集的推出,正是为了应对这一挑战。与以往的数据集不同,WebLI-100B 并不依赖严格的过滤方式,这种方法通常会删除重要的文化细节。相反,它更注重于扩大数据的范围,特别是在低资源语言和多样文化表达等领域。研究团队通过在 WebLI-100B 的不同子集上进行模型预训练,以分析数据规模对模型性能的影响。

经过测试,使用完整数据集进行训练的模型,在文化和多语言任务上的表现,明显优于在较小数据集上训练的模型,即使在计算资源相同的情况下。此外,研究发现,将数据集从10B 扩大到100B 对以西方为中心的基准测试的影响较小,但在文化多样性任务和低资源语言检索方面则显著改善。

论文:https://arxiv.org/abs/2502.07617

划重点:  

🌐 ** 全新数据集 **:WebLI-100B 是一个包含1000亿个图像 - 文本对的巨大数据集,旨在增强 AI 模型的文化多样性和多语言性。  

📈 ** 模型性能提升 **:使用 WebLI-100B 数据集训练的模型在多文化和多语言任务中的表现优于以往的数据集。  

🔍 ** 减少偏差 **:WebLI-100B 的数据集避免了严格过滤,保留了更多文化细节,提高了模型的包容性和准确性。

相关资讯