面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型：8B 参数、高效部署手机

AI
5月21日
编辑

泓澄（实习）

感谢面壁智能昨晚推出并开源 MiniCPM 系列最新的端侧多模态模型 MiniCPM-Llama3-V 2.5，支援 30 种说话，宣称可兑现：最强端侧多模态综合性能：超出 Gemini Pro 、GPT-4VOCR 才能 SOTA（IT之家注：State-of-the-Art）：9 倍像素更清晰，难图长图长文本精确辨认图像编码快 150 倍：首次端侧系统级多模态减速▲ OpenCompass 模型量级对比MiniCPM-Llama3-V 2.5 总参数量为 8B，多模态综合性能超出 GPT-4V-1106、Ge

感谢面壁智能昨晚推出并开源 MiniCPM 系列最新的端侧多模态模型 MiniCPM-Llama3-V 2.5，支援 30+ 种说话，宣称可兑现：

最强端侧多模态综合性能：超出 Gemini Pro 、GPT-4V

OCR 才能 SOTA（IT之家注：State-of-the-Art）：9 倍像素更清晰，难图长图长文本精确辨认

图像编码快 150 倍：首次端侧系统级多模态减速

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型：8B 参数、高效部署手机

▲ OpenCompass 模型量级对比

MiniCPM-Llama3-V 2.5 总参数量为 8B，多模态综合性能超出 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用闭源模型，OCR 才能及指令跟随才能得到进一步提高，可精确辨认难图、长图、长文本，并支援超过 30 种说话的多模态交互。

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型：8B 参数、高效部署手机

▲ 官方尝试结果

在 OpenCompass 尝试中，MiniCPM-Llama3-V 2.5 综合性能超出多模态“巨无霸”GPT-4V 和 Gemini Pro；在 OCRBench 上，超出了 GPT-4o、GPT-4V、Claude 3V Opus、Gemini Pro 等标杆模型。

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型：8B 参数、高效部署手机

▲ OpenCompass 尝试

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型：8B 参数、高效部署手机

▲ OCRBench 尝试

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型：8B 参数、高效部署手机

▲ Object HalBench 尝试

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型：8B 参数、高效部署手机

▲ RealWorldQA 尝试

此外，在图像编码方面，MiniCPM-Llama3-V 2.5 首次整合 NPU 和 CPU 减速框架，并结合显存管理、编译优化技术，兑现了 150 倍减速提高。

在说话模型推理方面，经过 CPU、编译优化、显存管理等优化方式，MiniCPM-Llama3-V 2.5 在手机端的说话解码速度由 Llama 3 的 0.5 token / s 上下提高到 3-4 token / s，并可支援 30 多种说话，包括德语、法语、西班牙语、意大利语、俄语等主流说话，基本覆盖一带一路国家。

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型：8B 参数、高效部署手机

▲ LLaVABench 评测结果

OCR 技术方面，MiniCPM-Llama3-V 2.5 兑现高效编码及无损辨认 180 万高清像素图片，并且支援任意长宽比、甚至 1:9 极限比例图像。

给TA打赏

共{{data.count}}人

人已打赏

2.5 GPT llama3 MiniCPM 模态

baidu发表文心大模型 ENIRE Speed、ENIRE Lite 全面免费，即刻生效

2024-5-21 14:28:02

google DeepMind 推出 AI 安全框架 Frontier Safety Framework，可检测优化降低大模型危急性

2024-5-21 17:37:10

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
2024年AI 编程现在可以做到什么程度？
12月18日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩
12月12日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部