阿里震撼发布，32B的Qwen2.5，开发者福音！实测：AI可以帮抓小偷了！阿里撞车DS再次坐实“AI汪峰”；网友：美国模型完了

2025-03-25 01:31

编辑 | 伊风阿里今天发了Qwen2.5-VL的32B版本，达到同等规模的SOTA模型，堪称开发者福音！千问接连两三次的模型发布时间都不太凑巧。今日与DeepSeek V3的更新撞车，而上次发的QwQ-32B以轻量推理模型击败了DeepSeek R1,但风头完全被Manus抢走了！

编辑 | 伊风

阿里今天发了Qwen2.5-VL的32B版本，达到同等规模的SOTA模型，堪称开发者福音！

千问接连两三次的模型发布时间都不太凑巧。今日与DeepSeek V3的更新撞车，而上次发的QwQ-32B以轻量推理模型击败了DeepSeek R1,但风头完全被Manus抢走了！

连网友都直呼阿里是AI届汪峰。

图片

不过话说回来，Qwen2.5-VL-32B这个模型还是很值得关注，作为阿里放出的第二大视觉模型，性能甚至超过了更大规模的 Qwen2-VL-72B-Instruct！主要有以下三方面优势：

回复更符合人类主观偏好：调整了输出风格，使回答更加详细、格式更规范，并更符合人类偏好。
数学推理能力：复杂数学问题求解的准确性显著提升。
图像细粒度理解与推理：在图像解析、内容识别以及视觉逻辑推导等任务中表现出更强的准确性和细粒度分析能力。

从性能上看，Qwen2.5-VL-32B不仅在专长的视觉能力上一骑绝尘：

图片

连纯文本能力，都达到了同规模模型的SOTA级别：

图片

无论是从开发者的本地部署需求出发，还是32B所做的架构更新，都有可圈可点之处。

阿里大佬Binyuan Hui表示这个模型尺寸就是为开发人员准备的。

图片

在X上找资料的时候，我们甚至发现网友曾向千问团队大佬隔空喊话。千问的反馈速度可以啊，网友这波许愿成功！

图片

海外网友也是对该模型赞美有加，经过实测，该模型在识别物体、分析视觉效果、扫描等方面令人印象深刻！甚至能理解一小时的视频！

图片

现在，Qwen2.5-VL-32B已经开源，大家可以在Qwen网页版快速试用：

网页版：https://chat.qwen.ai/

HF：https://huggingface.co/spaces/Qwen/Qwen2.5-VL-32B-Instruct

图片

加上DeepSeek的更新，今天可以说是中国开源模型的Big Day。

一位网友在Hacker News上留言说：

很快我就不会再使用任何美国模型了，而是 100% 采用中国的开源模型。（美）基础模型公司完了，只有卖铲子的（如 Nvidia、基础设施公司）和产品公司会赢。

图片

1.案例实测：Qwen2.5-VL-32B可以做什么

虽然Qwen2.5-VL-32B并没有类似R1的长推理能力，但是其视觉推理仍然表现出色！

先来看一个阿里blog里的demo案例：

用户将高速的限速牌拍给了AI，并问到：我驾驶一辆大卡车行驶在这条路上，现在是 12 点钟。我能在 13 点之前到达 110 公里多远的地方吗？

这个案例很有生活感了。就是咱们平时需要用的AI能力。

图片

然后AI就开始提取图片的信息，开始帮人吭哧吭哧地计算了。

最后表示：目标是 13:00 之前到达。然而，根据计算，你将在 13:06 抵达，已经超过了 13:00。

图片

知乎网友@北方的郎，以超市的智能预警系统为例，对Qwen2.5-VL-32B进行了一把实测。感觉摄像头配个模型就可以出去打工了。先是测试了一个形迹可疑的男人：

图片

模型给出了通知安保的建议。然后又用了一张正常的超市图进行测试，还是做出了正确识别！

图片

再来看一下Qwen2.5-VL-32B理解视频的能力，据网友实测，本地部署后能做长达一小时的视频理解。不过在网页端，则支持10分钟以内的短视频。

小编使用之前看华为Pura的发布会录屏片段，询问下智能助手小艺是如何在用户的语音指令下，为观看的B站视频一键三连的：

图片

Qwen2.5-VL-32B的响应非常丝滑，而且主要的内容都get到了。不过很可惜的是，我希望AI识别出来这是目前AI大热的智能体方向，并基于此出发谈谈技术实现，这一点AI稍弱一些。

图片

2.既要又要：更聪明、更轻量的模型是怎样炼成的？

那么阿里是怎么做到让32B模型如此优秀的呢？

HF中给出了一些Qwen2.5-VL的技术细节，可以猜测这仍然是32B模型进化的方面。

让 AI 更懂视频：动态分辨率与帧率训练

为了让 AI 更好地理解视频，Qwen2.5-VL 不仅能调整分辨率，还在时间维度上引入了动态帧率（FPS）采样。这样一来，模型可以在不同的采样速率下分析视频，适应各种播放速度和场景。与此同时，mRoPE 也在时间维度上进行了升级——通过IDs（标识符）和绝对时间对齐，模型学会了理解时间序列和速度变化，甚至能精准定位关键时刻，让视频分析更智能。

高效精简的视觉编码器，让推理更快

在视觉处理方面，这一版本的 Qwen2.5-VL 也进行了优化。它在 ViT（视觉变换器）中巧妙地加入了窗口注意力机制，显著提升了训练和推理的效率。

3.One More Thing：千问即将支持MCP

今天打开Qwen的网页版，还发现千问已经计划支持MCP！

给不太熟悉MCP的朋友科普一句，这个开源协议由Anthropic去年年底提出，旨在统一大型语言模型（LLM）与外部数据源和工具之间的通信方式。简单来说，MCP就像AI界的USB-C接口，让AI系统能更方便地连接各种数据源和功能模块，实现即插即用。

图片

对于千问来说，接入MCP意味着它们可以更高效地获取和处理外部信息，提升理解和决策能力。看来，阿里在智能体方向有了清晰的蓝图！

希望阿里下次发重磅更新的时候，能有运气选到一个好时机，有实力的同时，也能获得值得的口碑和声量。

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL，并推出 2B、7B 两个尺寸及其量化版本模型。同时，旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台，用户可直接调用。据阿里云官方介绍，相比上代模型，Qwen2-VL 的基础性能全面提升：读懂不同分辨率和不同长宽比的图片，在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现；理解 20 分钟以上长视频，支持基于视频的问答、对话和内容创作等应用；具备强大的视觉智能体能力，可自主操作手机和机器人，借助复杂推

9/2/2024 2:24:51 PM

汪淼