AI在线 AI在线

阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源:三尺寸版本、支持理解长视频和捕捉事件等能力

作者:归泷(实习)
2025-01-28 07:48
阿里通义千问官方今日发文宣布,开源全新的视觉理解模型 Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型,推出了 3B、7B 和 72B 三个尺寸版本。
感谢阿里通义千问官方今日发文宣布,开源全新的视觉理解模型 Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型,推出了 3B、7B 和 72B 三个尺寸版本

阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源:三尺寸版本、支持理解长视频和捕捉事件等能力

AI在线附 Qwen2.5-VL 的主要特点如下:

  • 视觉理解:Qwen2.5-VL 不仅擅长识别常见物体,如花、鸟、鱼和昆虫,还能够分析图像中的文本、图表、图标、图形和布局。

  • 代理:Qwen2.5-VL 直接作为一个视觉 Agent,可以推理并动态地使用工具,初步具备了使用电脑和使用手机的能力。

  • 理解长视频和捕捉事件:Qwen2.5-VL 能够理解超过 1 小时的视频,并且这次它具备了通过精准定位相关视频片段来捕捉事件的新能力。

  • 视觉定位:Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体,并能够为坐标和属性提供稳定的 JSON 输出。

  • 结构化输出:对于发票、表单、表格等数据,Qwen2.5-VL 支持其内容的结构化输出,惠及金融、商业等领域的应用。

据官方介绍,在旗舰模型 Qwen2.5-VL-72B-Instruct 的测试中,它在一系列涵盖多个领域和任务的基准测试中表现出色,包括大学水平的问题数学文档理解视觉问答视频理解和视觉 Agent。Qwen2.5-VL 在理解文档和图表方面具有优势,并且能够作为视觉 Agent 进行操作,而无需特定任务的微调

图片

另外,在较小的模型方面,Qwen2.5-VL-7B-Instruct 在多个任务中超越了 GPT-4o-mini,而 Qwen2.5-VL-3B 作为端侧 AI 的潜力股,超越了之前版本 Qwen2-VL 的 7B 模型

图片

图片

阿里通义千问官方表示,与 Qwen2-VL 相比,Qwen2.5-VL 增强了模型对时间和空间尺度的感知能力,并进一步简化了网络结构以提高模型效率。后续将进一步提升模型的问题解决和推理能力,同时整合更多模态,使模型变得更加智能,并向能够处理多种输入类型和任务的综合全能模型迈进。

相关标签:

相关资讯

阿里通义千问开源 Qwen2.5-Coder 全系列模型,号称代码能力追平 GPT-4o

阿里通义千问此前开源了 1.5B、7B 两个尺寸,本次开源带来 0.5B、3B、14B、32B 四个尺寸,覆盖了主流的六个模型尺寸。
11/12/2024 4:04:01 PM
沛霖(实习)

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云发布了新一代端到端多模态旗舰模型Qwen2.5-Omni,该模型支持文本、图像、音频和视频的全模态感知与生成,采用Thinker-Talker架构,实现实时流式响应。
3/27/2025 6:39:17 AM
问舟

斯坦福权威报告盖章!阿里通义千问贡献排名全球第三!用算力优势重塑全球竞争格局!

近日,斯坦福大学人工智能研究所发布了《2025年人工智能指数报告》,为全球人工智能领域的发展提供了新的视角。 报告指出,阿里巴巴在全球重要大模型贡献中位居第三,成为中国科技公司的领军代表。 报告显示,2024年,中国在全球 AI 大模型中贡献了15项,而阿里巴巴的6个模型入选,紧随谷歌与 OpenAI 的7个模型之后。
4/13/2025 7:34:53 AM
AI在线