阿里推出全新多模态模型 Qwen2.5-VL-32B：兼顾视觉语言与数学推理

2025-03-25 10:03

在人工智能领域，阿里巴巴再次带来了重磅消息。近日，阿里开源了最新的多模态模型 ——Qwen2.5-VL-32B-Instruct。这款新模型是 Qwen2.5系列中的一员，其他版本包括3B、7B 和72B，而32B 版本在保持性能的同时，更加注重便捷的本地运行体验。

Qwen2.5-VL-32B 经过强化学习的优化，在多个方面表现出色。首先，它的回答更加符合人类的认知习惯，这意味着用户在与模型互动时，将能获得更自然和流畅的交流体验。其次，这款模型在数学推理能力方面的提升也十分显著。无论是复杂的数学题还是几何体分析，Qwen2.5-VL-32B 都能准确而清晰地进行分析与推理。此外，该模型在图像解析、内容识别和视觉逻辑推导等任务中的准确性也得到了明显改善，使得其在处理多模态数据时，能够提供更加细致入微的分析。

在与同类模型的对比中，如 Mistral-Small-3.1-24B 和 Gemma-3-27B-IT，Qwen2.5-VL-32B 在纯文本能力上已达到同规模的最佳表现，甚至在多个基准测试中超过了72B 的版本。这一成就充分展示了阿里在多模态 AI 技术领域的领先地位。

例如，当用户向 Qwen2.5-VL-32B 展示一张交通指示牌的照片，并询问能否在一个小时内到达110公里外的目的地时，模型将分析时间、距离及卡车的限速，逐步清晰地推导出正确答案。这种复杂的推理能力让人惊叹不已。

目前，Qwen2.5-VL-32B 已经在 Hugging Face 上开源，用户可直接在 Qwen Chat 平台体验其强大的功能。随着开源活动的深入，越来越多的开发者和用户积极参与并在 MLX Community 中进行试验，讨论也在 Hacker News 等社交平台上热烈展开。

显然，阿里的这次发布再次引发了业内的热议，许多人认为开源的力量正不断突破边界，为人工智能的未来发展提供了无限可能。

阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源：三尺寸版本、支持理解长视频和捕捉事件等能力

阿里通义千问官方今日发文宣布，开源全新的视觉理解模型 Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型，推出了 3B、7B 和 72B 三个尺寸版本。

1/28/2025 7:48:15 AM

归泷（实习）

阿里云 Qwen2.5-1M 开源发布:100万上下文长度模型登场

继 DeepSeek R1之后，阿里云通义千问团队刚刚宣布推出其最新的开源模型 Qwen2.5-1M，再次引发业界关注。此次发布的 Qwen2.5-1M 系列包含两个开源模型:Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M。这是通义千问首次推出能够原生支持百万Token上下文长度的模型，并在推理速度上实现了显著提升。

1/27/2025 11:08:00 AM

AI在线