MiniCPM-o 2.6开源啦,该模型视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别。
图片
简介
MiniCPM-o 2.6是一个端侧多模态大模型,具有8B参数量。它基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建,通过端到端的方式训练和推理。模型的主要特点包括:
- 领先的视觉能力在OpenCompass榜单上,MiniCPM-o 2.6以8B量级的大小在单图理解方面超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等主流商用闭源多模态大模型。
- 出色的语音能力支持可配置声音的中英双语实时对话,语音理解任务表现优于GPT-4o-realtime,并在语音对话的语义和声学评估中展现了开源模型中最高的语音生成性能。
- 强大的多模态流式交互能力能够接受连续的视频和音频流,并与用户进行实时语音交互,在StreamingBench综合评测基准中取得开源社区最佳水平。
- 强大的OCR能力及其他功能进一步优化了MiniCPM-V 2.6的视觉理解能力,支持多种语言,并具备可信的多模态行为。
模型架构
图片
- 端到端全模态架构。 通过端到端的方式连接和训练不同模态的编/解码模块以充分利用丰富的多模态知识。模型完全使用 CE 损失端到端训练。
- 全模态流式机制。 (1) 我们将不同模态的离线编/解码器改造为适用于流式输入/输出的在线模块。 (2) 我们针对大语言模型基座设计了时分复用的全模态流式信息处理机制,将平行的不同模态的信息流拆分重组为周期性时间片序列。
- 可配置的声音方案。 我们设计了新的多模态系统提示,包含传统文本系统提示词,和用于指定模型声音的语音系统提示词。模型可在推理时灵活地通过文字或语音样例控制声音风格,并支持端到端声音克隆和音色创建等高级能力。
实力表现
图片
指标表现实力不俗,不输一众大size的模型:
图片
使用简介
MiniCPM-o 2.6可以通过多种方式轻松使用,包括:
- llama.cpp:支持在本地设备上进行高效的CPU推理。
- int4和GGUF格式的量化模型:有16种尺寸,适用于不同设备。
- vLLM:支持高吞吐量和内存高效的推理。
- LLaMA-Factory框架:针对新领域和任务进行微调。
- Gradio:快速设置本地WebUI演示。
资源传送:
复制项目地址:https://github.com/OpenBMB/MiniCPM-o 模型地址:https://huggingface.co/openbmb/MiniCPM-o-2_6
如果对内容有什么疑问和建议可以私信和留言,也可以添加我加入大模型交流群,一起讨论大模型在创作、RAG和agent中的应用。