阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源：三尺寸版本、支持理解长视频和捕捉事件等能力

2025-01-28 07:48

阿里通义千问官方今日发文宣布，开源全新的视觉理解模型 Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型，推出了 3B、7B 和 72B 三个尺寸版本。

感谢阿里通义千问官方今日发文宣布，开源全新的视觉理解模型 Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型，推出了 3B、7B 和 72B 三个尺寸版本。

AI在线附 Qwen2.5-VL 的主要特点如下：

视觉理解：Qwen2.5-VL 不仅擅长识别常见物体，如花、鸟、鱼和昆虫，还能够分析图像中的文本、图表、图标、图形和布局。
代理：Qwen2.5-VL 直接作为一个视觉 Agent，可以推理并动态地使用工具，初步具备了使用电脑和使用手机的能力。
理解长视频和捕捉事件：Qwen2.5-VL 能够理解超过 1 小时的视频，并且这次它具备了通过精准定位相关视频片段来捕捉事件的新能力。
视觉定位：Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体，并能够为坐标和属性提供稳定的 JSON 输出。
结构化输出：对于发票、表单、表格等数据，Qwen2.5-VL 支持其内容的结构化输出，惠及金融、商业等领域的应用。

据官方介绍，在旗舰模型 Qwen2.5-VL-72B-Instruct 的测试中，它在一系列涵盖多个领域和任务的基准测试中表现出色，包括大学水平的问题、数学、文档理解、视觉问答、视频理解和视觉 Agent。Qwen2.5-VL 在理解文档和图表方面具有优势，并且能够作为视觉 Agent 进行操作，而无需特定任务的微调。

另外，在较小的模型方面，Qwen2.5-VL-7B-Instruct 在多个任务中超越了 GPT-4o-mini，而 Qwen2.5-VL-3B 作为端侧 AI 的潜力股，超越了之前版本 Qwen2-VL 的 7B 模型。

阿里通义千问官方表示，与 Qwen2-VL 相比，Qwen2.5-VL 增强了模型对时间和空间尺度的感知能力，并进一步简化了网络结构以提高模型效率。后续将进一步提升模型的问题解决和推理能力，同时整合更多模态，使模型变得更加智能，并向能够处理多种输入类型和任务的综合全能模型迈进。

阿里通义千问开源 Qwen2.5-Coder 全系列模型，号称代码能力追平 GPT-4o

阿里通义千问此前开源了 1.5B、7B 两个尺寸，本次开源带来 0.5B、3B、14B、32B 四个尺寸，覆盖了主流的六个模型尺寸。

11/12/2024 4:04:01 PM

沛霖（实习）

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

阿里云发布了新一代端到端多模态旗舰模型Qwen2.5-Omni，该模型支持文本、图像、音频和视频的全模态感知与生成，采用Thinker-Talker架构，实现实时流式响应。

3/27/2025 6:39:17 AM

问舟

斯坦福权威报告盖章！阿里通义千问贡献排名全球第三！用算力优势重塑全球竞争格局！

近日，斯坦福大学人工智能研究所发布了《2025年人工智能指数报告》，为全球人工智能领域的发展提供了新的视角。报告指出，阿里巴巴在全球重要大模型贡献中位居第三，成为中国科技公司的领军代表。报告显示，2024年，中国在全球 AI 大模型中贡献了15项，而阿里巴巴的6个模型入选，紧随谷歌与 OpenAI 的7个模型之后。

4/13/2025 7:34:53 AM

AI在线

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源：三尺寸版本、支持理解长视频和捕捉事件等能力

相关资讯

阿里通义千问开源 Qwen2.5-Coder 全系列模型，号称代码能力追平 GPT-4o

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

斯坦福权威报告盖章！阿里通义千问贡献排名全球第三！用算力优势重塑全球竞争格局！