阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

作者：汪淼

2025-03-25 09:26

此前开源家族视觉语言模型 Qwen2.5-VL 包括 3B、7B 和 72B 三种尺寸。这一次的 32B 版本进一步兼顾尺寸和性能，可在本地运行。

就在 DeepSeek-V3 更新的同一夜，阿里通义千问 Qwen 又双叒叕一次梦幻联动了 —— 发布 Qwen2.5-VL-32B-Instruct。

此前开源家族视觉语言模型 Qwen2.5-VL 包括 3B、7B 和 72B 三种尺寸。

这一次的 32B 版本进一步兼顾尺寸和性能，可在本地运行。同时经过强化学习优化，在三个方面改进显著：

回答更符合人类偏好；
拥有更强的数学推理能力；
在图像解析、内容识别以及视觉逻辑推导等任务中，表现出更强的准确性和细粒度分析能力。

对比近期开源的 Mistral-Small-3.1-24B 、Gemma-3-27B-IT 等，Qwen2.5-VL-32B 在纯文本能力上也达到了同规模的 SOTA 表现。在多个基准上，Qwen2.5-VL-32B 甚至超过了 72B。

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

举个栗子，比如根据一张交通指示牌照片，Qwen2.5-VL-32B 就能做如下精细的图像理解和推理：

我正在这条路上驾驶一辆大卡车，现在 12 点了。我能在 13 点之前到达 110 公里远的地方吗？

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

Qwen2.5-VL-32B 首先对时间、距离、卡车限速进行分析，然后分步骤条理清晰推算出正确答案：

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

模型已经开源，尽管自己前往实测～

Qwen2.5-VL-32B 更多表现示例

官方刚刚发布的技术博客中也放出了更多展示示例。

数学推理能力上，几何体分析也不在话下：

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

同样是先有问题分析环节，然后再分四个小步骤推理正确答案：

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

下面这种复杂难题也能解：

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

能够依次类推，归纳出构造规律：

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

像下面这种图片理解就更不在话下了：

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

多轮深度提问也可以：

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

模型开源，已能实测

现在，阿里已将 Qwen2.5-VL-32B-Instruct 放在了 Hugging Face 上。

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

在 Qwen Chat 上就能直接体验 Qwen2.5-VL-32B，感兴趣的童鞋可以试试。

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

动作快的网友已经开始在 MLX Community 运行了：

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

在 Hacker News 上，网友也就 DeepSeek 和 Qwen 的举动进行了新一轮热烈讨论。网友纷纷表示：

开源赢了，奥尔特曼错了。

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

值得一提的是，春节期间，DeepSeek 曾与阿里通义千问 Qwen 多次几乎同时发布新模型，这一次又双叒叕赶一块去了。

杭州，原来真的是商量着一起发？？？

阿里开源最新多模态模型 Qwen2.5-VL-32B：主打视觉语言，数学推理也很强

参考链接：

[1]https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/
[2]https://x.com/Alibaba_Qwen/status/1904227859616641534
[3]https://news.ycombinator.com/item?id=43464068

本文来自微信公众号：量子位（ID：QbitAI），作者：西风，原标题《32B 本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强》

相关标签：

Qwen 阿里模型阿里开源

相关资讯

阿里万相视频生成大模型宣布开源：8.2GB 显存就能跑，测试超越 Sora

阿里万相视频生成大模型宣布开源：8.2GB 显存就能跑，测试超越 Sora

此次开源采用最宽松的 Apache2.0 协议，14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源，同时支持文生视频和图生视频任务，全球开发者可在 Github、HuggingFace 和魔搭社区下载体验。

2/25/2025 10:49:15 PM

汪淼

原来，这些顶级大模型都是蒸馏的

原来，这些顶级大模型都是蒸馏的

「除了 Claude、豆包和 Gemini 之外，知名的闭源和开源 LLM 通常表现出很高的蒸馏度。」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。前段时间，一位海外技术分析师在一篇博客中提出了一个猜想：一些顶级的 AI 科技公司可能已经构建出了非常智能的模型，比如 OpenAI 可能构建出了 GPT-5，Claude 构建出了 Opus 3.5。

1/29/2025 6:40:00 PM

机器之心

全球开源大模型榜单揭晓，阿里通义千问独占鳌头

全球开源大模型榜单揭晓，阿里通义千问独占鳌头

近日，全球最大人工智能开源社区 Huggingface 发布了最新的开源大模型排行榜（Open LLM Leaderboard），结果显示，排名前十的开源大模型全都是基于阿里通义千问(Qwen)开源模型进行二次训练的衍生模型。这一成就标志着 Qwen 在开源 AI 领域的主导地位，进一步推动了其在全球的影响力。 Open LLM Leaderboard 被广泛认为是当前最权威的开源大模型榜单，测试维度涵盖了多个领域，包括阅读理解、逻辑推理、数学计算及事实问答等。

2/11/2025 11:55:00 AM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部