Qwen 系列又推出了两款令人瞩目的新模型:Qwen 2.5 VL 和 Qwen 2.5 Max。如果还停留在“DeepSeek 是最强”那一档,就可能要重新考虑一下,因为这两款模型的实力相当惊艳。
什么是 Qwen 2.5 VL?
先从 Qwen 2.5 VL 说起。它不仅能看图识物,还能理解视频、文本,具备执行电脑操作(agentic)的能力,甚至能做物体检测等。
Qwen 2.5 VL 的核心特性
高级视觉理解
- 不只是识别常见物体(鲜花、鸟类等),还能处理复杂视觉元素,如图表、图标、排版布局等。
- 能理解图像中的空间结构和文字内容,分析文档或图形信息时更得力。
Agentic 能力
可视为一个“视觉代理”,可以进行推理、执行命令、和工具动态交互。
能在电脑或手机等数字设备上自动化操作,无需对特定任务做额外微调。
长视频理解
能处理超过一小时的视频,并分段提取关键片段。
提供二级精度的事件定位,对总结和信息提取非常有用。
视觉定位
能识别图像中的物体,并输出精确的边界框或关键点。
还能生成稳定的 JSON 结果用于描述对象属性,方便结构化分析。
结构化输出
可将扫描文件、发票、表单等转化为可读的数字数据,方便在金融和商务场景下使用。
自动化数据抽取,让处理文档更高效并保持高准确度。
强大的图像识别
拥有非常广泛的识别能力,从地标、动物、植物到流行文化元素都能辨识。
可以对多类别图像进行识别和分类,适合检索和分类等应用。
增强的文本与文档解析
OCR(光学字符识别)能力更强,多语言、多方向、多场景都能处理。
引入 QwenVL HTML 格式,能从杂志、论文、网页中提取复杂的布局结构。
强化视频处理
采用动态帧率训练及绝对时间编码,能精准把握时间信息。
在长视频场景下的场景识别、事件提取和摘要能力更上一层楼。
性能优化
Vision Transformer(ViT)中采用 Window Attention,保持精度同时减少计算量。
使用 RMSNorm、SwiGLU 等结构,使得它与 LLM 架构更好对齐。
多规格模型可选
提供 3B、7B、72B 三种大小,面向不同的硬件与应用需求。
同时在 Hugging Face、ModelScope 开源,基础版与指令版都有。
接下来是 Qwen 2.5 Max
Qwen2.5 Max 则是另一款大杀器。下面简单介绍它的核心功能。
Qwen 2.5 Max 的主要特点
大规模 MoE(Mixture-of-Experts)模型
- 采用专家混合架构,实现更高效的扩展性。
- 预训练超过 20 万亿令牌(tokens),知识覆盖面极广。
强化的后期训练
使用 SFT(Supervised Fine-Tuning)进行更好的任务定向调优。
通过人类反馈强化学习(RLHF)进一步对齐用户偏好。
基准表现
在 Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond 等测试上超越 DeepSeek V3。
在 MMLU-Pro(大学水平知识测评)上也保持领先或具备竞争力。
与主流模型对比
- 在对话与编程任务上,可与 GPT-4o、Claude-3.5-Sonnet 等商业模型一较高下。
- 底层模型能力胜过同样开源的 DeepSeek V3 与 Llama-3.1–405B。
API 与 OpenAI 兼容
可以通过阿里云(Alibaba Cloud)访问,并且兼容 OpenAI-API,使用方便。
轻松在 Python 或其他 OpenAI 支持的框架中集成。
总之,看得出来 Qwen 在下一盘大棋!
如何使用 Qwen 2.5 VL 与 Qwen 2.5 Max?
对于想尝鲜或在项目中集成这两款新模型,主要途径大致有:
- 开源平台:可以到 Hugging Face、ModelScope 等处找到对应仓库,下载基础版(Base)或指令版(Instruct)模型。
- 云端服务:阿里云已提供官方 API,并支持与 OpenAI 兼容的方式接入。只要你熟悉 Python 或 OpenAI SDK,就能快速上手。
- 本地部署(硬件允许的话):如果在本地有足够算力,可以下载合适大小的模型自行部署,用于敏感数据处理或离线场景。
从视觉理解到大规模推理,Qwen 2.5 VL 与 Qwen 2.5 Max 都彰显了下一个阶段的模型实力。对需要极致性能或全能 AI 方案的人来说,确实值得一试。