看听读全都会的六边形战士MiniCPM,来啦

MiniCPM-o 2.6开源啦,该模型视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别。 图片简介MiniCPM-o 2.6是一个端侧多模态大模型,具有8B参数量。 它基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建,通过端到端的方式训练和推理。

MiniCPM-o 2.6开源啦,该模型视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别。

图片图片

简介

MiniCPM-o 2.6是一个端侧多模态大模型,具有8B参数量。它基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建,通过端到端的方式训练和推理。模型的主要特点包括:

  • 领先的视觉能力在OpenCompass榜单上,MiniCPM-o 2.6以8B量级的大小在单图理解方面超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等主流商用闭源多模态大模型。
  • 出色的语音能力支持可配置声音的中英双语实时对话,语音理解任务表现优于GPT-4o-realtime,并在语音对话的语义和声学评估中展现了开源模型中最高的语音生成性能。
  • 强大的多模态流式交互能力能够接受连续的视频和音频流,并与用户进行实时语音交互,在StreamingBench综合评测基准中取得开源社区最佳水平。
  • 强大的OCR能力及其他功能进一步优化了MiniCPM-V 2.6的视觉理解能力,支持多种语言,并具备可信的多模态行为。

模型架构

图片图片

  • 端到端全模态架构。 通过端到端的方式连接和训练不同模态的编/解码模块以充分利用丰富的多模态知识。模型完全使用 CE 损失端到端训练。
  • 全模态流式机制。 (1) 我们将不同模态的离线编/解码器改造为适用于流式输入/输出的在线模块。 (2) 我们针对大语言模型基座设计了时分复用的全模态流式信息处理机制,将平行的不同模态的信息流拆分重组为周期性时间片序列。
  • 可配置的声音方案。 我们设计了新的多模态系统提示,包含传统文本系统提示词,和用于指定模型声音的语音系统提示词。模型可在推理时灵活地通过文字或语音样例控制声音风格,并支持端到端声音克隆和音色创建等高级能力。

实力表现

图片图片

指标表现实力不俗,不输一众大size的模型:

图片图片

使用简介

MiniCPM-o 2.6可以通过多种方式轻松使用,包括:

  • llama.cpp:支持在本地设备上进行高效的CPU推理。
  • int4和GGUF格式的量化模型:有16种尺寸,适用于不同设备。
  • vLLM:支持高吞吐量和内存高效的推理。
  • LLaMA-Factory框架:针对新领域和任务进行微调。
  • Gradio:快速设置本地WebUI演示。

资源传送:

复制
项目地址:https://github.com/OpenBMB/MiniCPM-o
模型地址:https://huggingface.co/openbmb/MiniCPM-o-2_6

如果对内容有什么疑问和建议可以私信和留言,也可以添加我加入大模型交流群,一起讨论大模型在创作、RAG和agent中的应用。

相关资讯

中国MoE一夜爆火!大模型新王暴打GPT-4o,训练成本仅600万美元

一夜之间,来自中国的大模型刷屏全网。 DeepSeek-V3,一个拥有671B参数的MoE模型,吞吐量每秒高达60 token,比上一代V2直接飙升3倍。 在多项基准测试中,V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型:8B 参数、高效部署手机

感谢面壁智能昨晚推出并开源 MiniCPM 系列最新的端侧多模态模型 MiniCPM-Llama3-V 2.5,支持 30 种语言,宣称可实现:最强端侧多模态综合性能:超越 Gemini Pro 、GPT-4VOCR 能力 SOTA(IT之家注:State-of-the-Art):9 倍像素更清晰,难图长图长文本精准识别图像编码快 150 倍:首次端侧系统级多模态加速▲ OpenCompass 模型量级对比MiniCPM-Llama3-V 2.5 总参数量为 8B,多模态综合性能超越 GPT-4V-1106、Ge

斯坦福团队被曝抄袭清华系大模型,已删库跑路,创始人回应:也算国际认可

斯坦福 AI 团队,竟然曝出了抄袭事件,而且抄袭的还是中国国产的大模型成果 —— 模型结构和代码,几乎一模一样!跟任何抄袭事故一样……AI 圈内都惊呆了。斯坦福的这项研究叫做 Llama3-V,是于 5 月 29 日新鲜发布,宣称只需要 500 美元就能训出一个 SOTA 多模态大模型,比 GPT-4V、Gemini Ultra、Claude Opus 都强。Llama3-V 的 3 位作者或许是拥有名校头衔加持,又有特斯拉、SpaceX 的大厂相关背景,这个项目短短几天就受到了不小的关注。甚至一度冲上了 Hugg