AI在线 AI在线

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

作者:汪淼
2025-03-25 09:26
此前开源家族视觉语言模型 Qwen2.5-VL 包括 3B、7B 和 72B 三种尺寸。这一次的 32B 版本进一步兼顾尺寸和性能,可在本地运行。

就在 DeepSeek-V3 更新的同一夜,阿里通义千问 Qwen 又双叒叕一次梦幻联动了 —— 发布 Qwen2.5-VL-32B-Instruct

此前开源家族视觉语言模型 Qwen2.5-VL 包括 3B、7B 和 72B 三种尺寸。

这一次的 32B 版本进一步兼顾尺寸和性能,可在本地运行。同时经过强化学习优化,在三个方面改进显著:

  • 回答更符合人类偏好;

  • 拥有更强的数学推理能力;

  • 在图像解析、内容识别以及视觉逻辑推导等任务中,表现出更强的准确性和细粒度分析能力。

对比近期开源的 Mistral-Small-3.1-24B 、Gemma-3-27B-IT 等,Qwen2.5-VL-32B 在纯文本能力上也达到了同规模的 SOTA 表现。在多个基准上,Qwen2.5-VL-32B 甚至超过了 72B。

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

举个栗子,比如根据一张交通指示牌照片,Qwen2.5-VL-32B 就能做如下精细的图像理解和推理:

我正在这条路上驾驶一辆大卡车,现在 12 点了。我能在 13 点之前到达 110 公里远的地方吗?

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

Qwen2.5-VL-32B 首先对时间、距离、卡车限速进行分析,然后分步骤条理清晰推算出正确答案:

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

模型已经开源,尽管自己前往实测~

Qwen2.5-VL-32B 更多表现示例

官方刚刚发布的技术博客中也放出了更多展示示例。

数学推理能力上,几何体分析也不在话下:

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

同样是先有问题分析环节,然后再分四个小步骤推理正确答案:

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

下面这种复杂难题也能解:

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

能够依次类推,归纳出构造规律:

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

像下面这种图片理解就更不在话下了:

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

多轮深度提问也可以:

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

模型开源,已能实测

现在,阿里已将 Qwen2.5-VL-32B-Instruct 放在了 Hugging Face 上。

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

在 Qwen Chat 上就能直接体验 Qwen2.5-VL-32B,感兴趣的童鞋可以试试。

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

动作快的网友已经开始在 MLX Community 运行了:

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

在 Hacker News 上,网友也就 DeepSeek 和 Qwen 的举动进行了新一轮热烈讨论。网友纷纷表示:

开源赢了,奥尔特曼错了。

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

值得一提的是,春节期间,DeepSeek 曾与阿里通义千问 Qwen 多次几乎同时发布新模型,这一次又双叒叕赶一块去了。

杭州,原来真的是商量着一起发???

阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强

参考链接:

  • [1]https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/

  • [2]https://x.com/Alibaba_Qwen/status/1904227859616641534

  • [3]https://news.ycombinator.com/item?id=43464068

本文来自微信公众号:量子位(ID:QbitAI),作者:西风,原标题《32B 本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强》

相关标签:

相关资讯

阿里万相视频生成大模型宣布开源:8.2GB 显存就能跑,测试超越 Sora

此次开源采用最宽松的 Apache2.0 协议,14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在 Github、HuggingFace 和魔搭社区下载体验。
2/25/2025 10:49:15 PM
汪淼

原来,这些顶级大模型都是蒸馏的

「除了 Claude、豆包和 Gemini 之外,知名的闭源和开源 LLM 通常表现出很高的蒸馏度。 」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。 前段时间,一位海外技术分析师在一篇博客中提出了一个猜想:一些顶级的 AI 科技公司可能已经构建出了非常智能的模型,比如 OpenAI 可能构建出了 GPT-5,Claude 构建出了 Opus 3.5。
1/29/2025 6:40:00 PM
机器之心

全球开源大模型榜单揭晓,阿里通义千问独占鳌头

近日,全球最大人工智能开源社区 Huggingface 发布了最新的开源大模型排行榜(Open LLM Leaderboard),结果显示,排名前十的开源大模型全都是基于阿里通义千问(Qwen)开源模型进行二次训练的衍生模型。 这一成就标志着 Qwen 在开源 AI 领域的主导地位,进一步推动了其在全球的影响力。 Open LLM Leaderboard 被广泛认为是当前最权威的开源大模型榜单,测试维度涵盖了多个领域,包括阅读理解、逻辑推理、数学计算及事实问答等。
2/11/2025 11:55:00 AM
AI在线