面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型:8B 参数、高效部署手机

感谢面壁智能昨晚推出并开源 MiniCPM 系列最新的端侧多模态模型 MiniCPM-Llama3-V 2.5,支援 30 种说话,宣称可兑现:最强端侧多模态综合性能:超出 Gemini Pro 、GPT-4VOCR 才能 SOTA(IT之家注:State-of-the-Art):9 倍像素更清晰,难图长图长文本精确辨认图像编码快 150 倍:首次端侧系统级多模态减速▲ OpenCompass 模型量级对比MiniCPM-Llama3-V 2.5 总参数量为 8B,多模态综合性能超出 GPT-4V-1106、Ge

感谢面壁智能昨晚推出并开源 MiniCPM 系列最新的端侧多模态模型 MiniCPM-Llama3-V 2.5,支援 30+ 种说话,宣称可兑现:

最强端侧多模态综合性能:超出 Gemini Pro 、GPT-4V

OCR 才能 SOTA(IT之家注:State-of-the-Art):9 倍像素更清晰,难图长图长文本精确辨认

图像编码快 150 倍:首次端侧系统级多模态减速

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型:8B 参数、高效部署手机

▲ OpenCompass 模型量级对比

MiniCPM-Llama3-V 2.5 总参数量为 8B,多模态综合性能超出 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用闭源模型,OCR 才能及指令跟随才能得到进一步提高,可精确辨认难图、长图、长文本,并支援超过 30 种说话的多模态交互。

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型:8B 参数、高效部署手机

▲ 官方尝试结果

在 OpenCompass 尝试中,MiniCPM-Llama3-V 2.5 综合性能超出多模态“巨无霸”GPT-4V 和 Gemini Pro;在 OCRBench 上,超出了 GPT-4o、GPT-4V、Claude 3V Opus、Gemini Pro 等标杆模型。

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型:8B 参数、高效部署手机

▲ OpenCompass 尝试

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型:8B 参数、高效部署手机

▲ OCRBench 尝试

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型:8B 参数、高效部署手机

▲ Object HalBench 尝试

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型:8B 参数、高效部署手机

▲ RealWorldQA 尝试

此外,在图像编码方面,MiniCPM-Llama3-V 2.5 首次整合 NPU 和 CPU 减速框架,并结合显存管理、编译优化技术,兑现了 150 倍减速提高。

在说话模型推理方面,经过 CPU、编译优化、显存管理等优化方式,MiniCPM-Llama3-V 2.5 在手机端的说话解码速度由 Llama 3 的 0.5 token / s 上下提高到 3-4 token / s,并可支援 30 多种说话,包括德语、法语、西班牙语、意大利语、俄语等主流说话,基本覆盖一带一路国家。

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型:8B 参数、高效部署手机

▲ LLaVABench 评测结果

OCR 技术方面,MiniCPM-Llama3-V 2.5 兑现高效编码及无损辨认 180 万高清像素图片,并且支援任意长宽比、甚至 1:9 极限比例图像。

给TA打赏
共{{data.count}}人
人已打赏
AI

baidu发表文心大模型 ENIRE Speed、ENIRE Lite 全面免费,即刻生效

2024-5-21 14:28:02

AI

google DeepMind 推出 AI 安全框架 Frontier Safety Framework,可检测优化降低大模型危急性

2024-5-21 17:37:10

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索