谷歌 DeepMind 发布 WebLI-100B:千亿级数据集解锁 AI 视觉语言模型的文化多样性

科技媒体 marktechpost 昨日(2 月 13 日)发布博文,报道称谷歌 DeepMind 团队发布了 WebLI-100B 千亿级数据集,并通过增强文化多样性和多语言性,以及减少子组之间的性能差异来提高包容性。

科技媒体 marktechpost 昨日(2 月 13 日)发布博文,报道称谷歌 DeepMind 团队发布了 WebLI-100B 千亿级数据集,并通过增强文化多样性和多语言性,以及减少子组之间的性能差异来提高包容性。

目前挑战

AI在线注:机器通过学习大型数据集来连接图像和文本,数据越多,模型识别模式和提高准确性的能力就越强。视觉语言模型 (VLMs) 依赖这些数据集执行图像字幕和视觉问答等任务。

视觉语言模型目前依赖于 Conceptual Captions 和 LAION 等大型数据集,包含数百万到数十亿的图像-文本对。这些数据集支持零样本分类和图像字幕生成,但其发展已放缓至约 100 亿对。

这种限制降低了进一步提高模型精度、包容性和多语言理解的前景,现有方法基于网络爬取的数据,存在样本质量低、语言偏差和多元文化代表性不足等问题。

WebLI-100B 千亿级数据集

Google DeepMind 的研究人员为了缓解视觉语言模型在文化多样性和多语言性方面的局限性,提出了 WebLI-100B 数据集,该数据集包含 1000 亿个图像-文本对,比之前的数据集大十倍。

该数据集捕获了罕见的文化概念,并提高了模型在低资源语言和多样化表示等较少探索领域的性能。与先前的数据集不同,WebLI-100B 不是依赖严格的过滤(通常会删除重要的文化细节),而是专注于扩展数据。

该框架涉及在 WebLI-100B 数据集的不同子集(1B、10B 和 100B)上预训练模型,以分析数据缩放的影响。

在完整数据集上训练的模型在文化和多语言任务中的表现优于在较小数据集上训练的模型,即使使用相同的计算资源。该数据集没有进行激进的过滤,而是保留了语言和文化元素的广泛代表性,使其更具包容性。

研究结果表明,将数据集大小从 10B 增加到 100B 对以西方为中心的基准测试的影响很小,但在文化多样性任务和低资源语言检索方面带来了改进。

相关资讯

目标超级智能,前DeepMind科学家离职创业,获1.3亿刀融资

又有谷歌大模型核心成员出来创业了。 3 月 8 日,两名前谷歌 DeepMind 研究人员在社交平台 X 上宣布,成立一家名为 Reflection AI 的公司,旨在开发超级智能。 该公司一亮相,就已宣布获得 1.3 亿美元融资,估值更是高达 5.55 亿美元。

「让通用机器人成为现实」,谷歌RT-2、PaLM-E作者离职创业,已获英伟达投资

又一位 DeepMind 高级研究科学家离开了谷歌,创建了自己的初创公司。 在近日召开的英伟达 GTC 的一个小组讨论会上,谷歌 DeepMind 高级研究科学家、RT-2 作者 Pete Florence 以 Generalist AI 联合创始人兼首席执行官的身份出席。 人工智能浪潮的来临让英伟达这家公司获得了巨大的财务成功,与此同时,NVentures 也成为一家格外活跃的风险投资公司。

超越国际数学奥林匹克金牌得主:谷歌 DeepMind AI 系统展现超强几何解题能力

谷歌旗下人工智能研究实验室 DeepMind 开发的人工智能系统 AlphaGeometry2 在解决国际数学奥林匹克竞赛(IMO)几何问题方面取得了突破性进展,其表现甚至超过了平均金牌得主。