图像字幕生成
谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B
谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集,这是一个包含1000亿个图像 - 文本对的庞大数据集,旨在增强人工智能视觉语言模型的文化多样性和多语言性。 通过这一数据集,研究人员希望改善视觉语言模型在不同文化和语言环境下的表现,同时减少各个子组之间的性能差异,从而提升人工智能的包容性。 视觉语言模型(VLMs)依赖于大量数据集来学习如何连接图像与文本,从而执行如图像字幕生成和视觉问答等任务。
2/14/2025 3:50:00 PM
AI在线
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
机器人
数据
谷歌
模型
大模型
Midjourney
智能
用户
学习
GPT
开源
微软
AI创作
图像
Meta
技术
论文
Stable Diffusion
马斯克
算法
Gemini
蛋白质
生成式
芯片
代码
神经网络
腾讯
英伟达
计算
研究
Sora
AI for Science
AI设计
3D
机器学习
GPU
开发者
场景
Anthropic
华为
预测
伟达
Transformer
深度学习
模态
百度
AI视频
苹果
文本
驾驶
搜索
神器推荐
xAI
Copilot
LLaMA
人形机器人
安全
算力
大语言模型
具身智能
视频生成
应用
字节跳动
科技
Claude
干货合集
视觉
2024
AGI
特斯拉
亚马逊
架构
语音