VL

多模态检索新突破！智源开源多模态向量模型BGE-VL

2025年3月6日，北京智源人工智能研究院宣布开源多模态向量模型BGE-VL，这一成果标志着多模态检索领域的新突破。 BGE-VL模型在图文检索、组合图像检索等多模态检索任务中取得了最佳效果，显著提升了多模态检索的性能。 BGE-VL的开发基于大规模合成数据集MegaPairs，该数据集通过结合多模态表征模型、多模态大模型和大语言模型，从海量图文语料库中高效挖掘多模态三元组数据。

3/6/2025 2:46:00 PM

AI在线

阿里云通义开源Qwen2.5-VL，视觉理解能力全面超越GPT-4o

1月28日凌晨，阿里云通义千问开源全新的视觉模型Qwen2.5-VL，推出3B、7B和72B三个尺寸版本。其中，旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军，全面超越GPT-4o与Claude3.5。新的Qwen2.5-VL能够更准确地解析图像内容，突破性地支持超1小时的视频理解，无需微调就可变身为一个能操控手机和电脑的AI视觉智能体（Visual Agents），实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。

1/28/2025 5:34:00 PM

新闻助手

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL，并推出 2B、7B 两个尺寸及其量化版本模型。同时，旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台，用户可直接调用。据阿里云官方介绍，相比上代模型，Qwen2-VL 的基础性能全面提升：读懂不同分辨率和不同长宽比的图片，在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现；理解 20 分钟以上长视频，支持基于视频的问答、对话和内容创作等应用；具备强大的视觉智能体能力，可自主操作手机和机器人，借助复杂推

9/2/2024 2:24:51 PM

汪淼

阿里通义千问推出 Qwen2-VL：开源 2B / 7B 模型，处理任意分辨率图像无需分割成块

通义千问团队今天对 Qwen-VL 模型进行更新，推出 Qwen2-VL。Qwen2-VL 的一项关键架构改进是实现了动态分辨率支持（Naive Dynamic Resolution support）。与上一代模型 Qwen-VL 不同，Qwen2-VL 可以处理任意分辨率的图像，而无需将其分割成块，从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知，使模型能够处理任何清晰度或大小的图像。另一个关键架构增强是 Multimodal Rotary Position Embedding（M-

8/30/2024 8:51:15 AM

沛霖（实习）

CVPR 2024｜FairCLIP：首个多模态医疗视觉语言大模型公平性研究

作者 | 哈佛大学、纽约大学团队编辑 | ScienceAI公平性在深度学习中是一个关键问题，尤其是在医疗领域，这些模型影响着诊断和治疗决策。尽管在仅限视觉领域已对公平性进行了研究，但由于缺乏用于研究公平性的医疗视觉-语言(VL)数据集，医疗VL模型的公平性仍未被探索。为了弥补这一研究空白，我们介绍了第一个公平的视觉-语言医疗数据集（FairVLMed），它提供了详细的人口统计属性、真实标签和临床笔记，以便深入检查VL基础模型中的公平性。使用FairVLMed，我们对两个广泛使用的VL模型（CLIP和BLIP2）进

4/8/2024 2:18:00 PM

ScienceAI

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！全日程揭晓！ICLR 2025论文分享会我们北京见 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练