视觉语言模型

kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

备受瞩目的国内人工智能公司 Moonshot AI （月之暗面）近日宣布，正式开源发布了两款全新的视觉语言模型——Kimi-VL 与 Kimi-VL-Thinking。这两款模型以其轻量级的架构和卓越的多模态理解与推理能力，在多个关键基准测试中超越了包括 GPT-4o 在内的众多大型模型，引发行业广泛关注。轻巧身躯，蕴藏澎湃动力与动辄拥有数百亿甚至千亿参数的主流大模型不同，Kimi-VL 和 Kimi-VL-Thinking 均采用了 MoE（Mixture-of-Experts，混合专家）架构，其激活参数仅约 30亿。

4/14/2025 10:01:22 AM

AI在线

模态编码器 | ALIGN，通过大规模嘈杂数据集训练的视觉语言模型

简单看一下Google早期的一篇工作ALIGN，发表在2021 ICML上。研究动机：传统的视觉语言表示学习通常在手动标注的大规模数据集上进行训练，需要大量的预先处理和成本。 ALIGN利用网络上摘取的HTML页面和alt-text标签，构建了一个18亿对图像-文本的嘈杂数据集，从而在不需要昂贵的数据过滤的情况下，实现高效的学习。

4/11/2025 2:00:00 AM

Goldma

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集，这是一个包含1000亿个图像 - 文本对的庞大数据集，旨在增强人工智能视觉语言模型的文化多样性和多语言性。通过这一数据集，研究人员希望改善视觉语言模型在不同文化和语言环境下的表现，同时减少各个子组之间的性能差异，从而提升人工智能的包容性。视觉语言模型（VLMs）依赖于大量数据集来学习如何连接图像与文本，从而执行如图像字幕生成和视觉问答等任务。

2/14/2025 3:50:00 PM

AI在线

IBM发布视觉语言模型Granite-Vision-3.1-2B，轻松解析复杂文档

随着人工智能技术的不断发展，视觉与文本数据的融合成为了一项复杂的挑战。传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档，这一限制影响了自动内容提取和理解能力，进而影响了数据分析、信息检索和决策等应用。面对这一需求，IBM 近期发布了 Granite-Vision-3.1-2B，一款专为文档理解设计的小型视觉语言模型。

2/8/2025 4:45:00 PM

AI在线

VLA 技术引领智驾竞赛，英伟达助力黑马企业迅速抢占市场份额

在智能驾驶行业，2025年被视为 “VLA 上车元年”，这标志着一种全新的技术范式正在崭露头角。 VLA，即视觉语言动作模型（Vision-Language-Action Model），最初由 DeepMind 于2023年提出，旨在提升机器人对环境的理解和反应能力。近年来，这一技术在自动驾驶领域受到了极大的关注。

1/25/2025 4:26:00 PM

AI在线

300倍体积缩减！Hugging Face推SmolVLM模型：小巧智能，手机也能跑AI

Hugging Face 推出了一款令人瞩目的 AI 模型 ——SmolVLM。这款视觉语言模型的体积小到可以在手机等小型设备上运行，且性能超越了那些需要大型数据中心支持的前辈模型。 SmolVLM-256M 模型的 GPU 内存需求不足1GB，性能却超过了其前代 Idefics80B 模型，这一后者的规模是其300倍，标志着实用 AI 部署的一个重大进展。

1/24/2025 9:48:00 AM

AI在线

使用Pytorch构建视觉语言模型（VLM）

视觉语言模型（Vision Language Model，VLM）正在改变计算机对视觉和文本信息的理解与交互方式。本文将介绍 VLM 的核心组件和实现细节，可以让你全面掌握这项前沿技术。我们的目标是理解并实现能够通过指令微调来执行有用任务的视觉语言模型。

11/19/2024 1:17:38 PM

Achraf Abbaoui

让视觉语言模型搞空间推理，谷歌又整新活了

视觉语言模型虽然强大，但缺乏空间推理能力，最近 Google 的新论文说它的 SpatialVLM 可以做，看看他们是怎么做的。视觉语言模型 (VLM) 已经在广泛的任务上取得了显著进展，包括图像描述、视觉问答 (VQA)、具身规划、动作识别等等。然而大多数视觉语言模型在空间推理方面仍然存在一些困难，比如需要理解目标在三维空间中的位置或空间关系的任务。关于这一问题，研究者们常常从「人类」身上获得启发：通过具身体验和进化发展，人类拥有固有的空间推理技能，可以毫不费力地确定空间关系，比如目标相对位置或估算距离和大小，而

2/19/2024 2:22:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

视觉语言模型

kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

模态编码器 | ALIGN，通过大规模嘈杂数据集训练的视觉语言模型

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

IBM发布视觉语言模型Granite-Vision-3.1-2B，轻松解析复杂文档

VLA 技术引领智驾竞赛，英伟达助力黑马企业迅速抢占市场份额

300倍体积缩减！​Hugging Face推SmolVLM模型：小巧智能，手机也能跑AI

使用Pytorch构建视觉语言模型（VLM）

让视觉语言模型搞空间推理，谷歌又整新活了

300倍体积缩减！Hugging Face推SmolVLM模型：小巧智能，手机也能跑AI