32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强

就在DeepSeek-V3更新的同一夜,阿里通义千问Qwen又双叒叕一次梦幻联动了——发布Qwen2.5-VL-32B-Instruct。 此前开源家族视觉语言模型Qwen2.5-VL包括3B、7B和72B三种尺寸。 这一次的32B版本进一步兼顾尺寸和性能,可在本地运行。

就在DeepSeek-V3更新的同一夜,阿里通义千问Qwen又双叒叕一次梦幻联动了——

发布Qwen2.5-VL-32B-Instruct

此前开源家族视觉语言模型Qwen2.5-VL包括3B、7B和72B三种尺寸。

这一次的32B版本进一步兼顾尺寸和性能,可在本地运行。

同时经过强化学习优化,在三个方面改进显著:

  • 回答更符合人类偏好;
  • 拥有更强的数学推理能力;
  • 在图像解析、内容识别以及视觉逻辑推导等任务中,表现出更强的准确性和细粒度分析能力。

对比近期开源的Mistral-Small-3.1-24B 、Gemma-3-27B-IT等, Qwen2.5-VL-32B在纯文本能力上也达到了同规模的SOTA表现。在多个基准上,Qwen2.5-VL-32B甚至超过了72B。

图片

举个栗子,比如根据一张交通指示牌照片,Qwen2.5-VL-32B就能做如下精细的图像理解和推理:

我正在这条路上驾驶一辆大卡车,现在12点了。我能在13点之前到达110公里远的地方吗?

图片

Qwen2.5-VL-32B首先对时间、距离、卡车限速进行分析,然后分步骤条理清晰推算出正确答案:

图片

模型已经开源,尽管自己前往实测~

Qwen2.5-VL-32B更多表现示例

官方刚刚发布的技术博客中也放出了更多展示示例。

数学推理能力上,几何体分析也不在话下:

图片

同样是先有问题分析环节,然后再分四个小步骤推理正确答案:

图片

下面这种复杂难题也能解:

图片

能够依次类推,归纳出构造规律:

图片图片图片图片

像下面这种图片理解就更不在话下了:

图片图片

多轮深度提问也可以:

图片

模型开源,已能实测

现在,阿里已将Qwen2.5-VL-32B-Instruct放在了Hugging Face上。

图片

在Qwen Chat上就能直接体验Qwen2.5-VL-32B,感兴趣的童鞋可以试试。

图片

动作快的网友已经开始在MLX Community运行了:

图片

在Hacker News上,网友也就DeepSeek和Qwen的举动进行了新一轮热烈讨论。网友纷纷表示:

开源赢了,奥特曼错了。

图片

值得一提的是,春节期间,DeepSeek曾与阿里通义千问Qwen多次几乎同时发布新模型,这一次又双叒叕赶一块去了。

杭州,原来真的是商量着一起发???

相关资讯

微软等开源AIOpsLab,可构建自主云AI Agent

微软、加州大学伯克利分校、伊利诺伊大学等研究人员联合开源了,一个专用于云自动化运维的AI Agents——AIOpsLab。 AIOpsLab能模拟真实云服务环境中的复杂操作任务,实现故障的自动化检测、定位和解决问题。 还具备高度的可观测性,能够收集和分析关键的遥测数据,确保对系统状态和应用环境的深入洞察。

DeepSeek开源Janus-Pro-7B:多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注,位居应用商店排行榜首位并改变了股市。 随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B,该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。 性能表现:小模型吊打行业巨头Janus-Pro-7B虽仅有70亿参数(约为GPT-4的1/25),却在关键测试中碾压对手:文生图质量:在GenEval测试中以80%准确率击败DALL-E 3(67%)和Stable Diffusion 3(74%)复杂指令理解:在DPG-Bench测试中达84.19%准确率,能精准生成如“山脚下有蓝色湖泊的雪山”等复杂场景多模态问答:视觉问答准确率超越GPT-4V,MMBench测试得分79.2分接近专业分析模型技术突破:像“双面神”分工协作传统模型让同一套视觉编码器既理解图片又生成图片,如同让厨师同时设计菜单和炒菜。

李飞飞、DeepSeek为何偏爱这个国产模型?

斯坦福李飞飞团队的一篇论文,近来在AI圈子掀起了一场飓风。 他们仅用1000个样本,在16块H100上监督微调26分钟,训出的新模型s1-32B,竟取得了和OpenAI o1、DeepSeek R1等尖端推理模型相当的数学和编码能力! 团队也再次证明了测试时Scaling的威力。