感谢面壁智能昨晚推出并开源 MiniCPM 系列最新的端侧多模态模型 MiniCPM-Llama3-V 2.5,支援 30+ 种说话,宣称可兑现:
最强端侧多模态综合性能:超出 Gemini Pro 、GPT-4V
OCR 才能 SOTA(IT之家注:State-of-the-Art):9 倍像素更清晰,难图长图长文本精确辨认
图像编码快 150 倍:首次端侧系统级多模态减速
▲ OpenCompass 模型量级对比
MiniCPM-Llama3-V 2.5 总参数量为 8B,多模态综合性能超出 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用闭源模型,OCR 才能及指令跟随才能得到进一步提高,可精确辨认难图、长图、长文本,并支援超过 30 种说话的多模态交互。
▲ 官方尝试结果
在 OpenCompass 尝试中,MiniCPM-Llama3-V 2.5 综合性能超出多模态“巨无霸”GPT-4V 和 Gemini Pro;在 OCRBench 上,超出了 GPT-4o、GPT-4V、Claude 3V Opus、Gemini Pro 等标杆模型。
▲ OpenCompass 尝试
▲ OCRBench 尝试
▲ Object HalBench 尝试
▲ RealWorldQA 尝试
此外,在图像编码方面,MiniCPM-Llama3-V 2.5 首次整合 NPU 和 CPU 减速框架,并结合显存管理、编译优化技术,兑现了 150 倍减速提高。
在说话模型推理方面,经过 CPU、编译优化、显存管理等优化方式,MiniCPM-Llama3-V 2.5 在手机端的说话解码速度由 Llama 3 的 0.5 token / s 上下提高到 3-4 token / s,并可支援 30 多种说话,包括德语、法语、西班牙语、意大利语、俄语等主流说话,基本覆盖一带一路国家。
▲ LLaVABench 评测结果
OCR 技术方面,MiniCPM-Llama3-V 2.5 兑现高效编码及无损辨认 180 万高清像素图片,并且支援任意长宽比、甚至 1:9 极限比例图像。