看听读全都会的六边形战士MiniCPM，来啦

2025-01-17 11:38

MiniCPM-o 2.6开源啦，该模型视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别。图片简介MiniCPM-o 2.6是一个端侧多模态大模型，具有8B参数量。它基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建，通过端到端的方式训练和推理。

MiniCPM-o 2.6开源啦，该模型视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别。

图片

简介

MiniCPM-o 2.6是一个端侧多模态大模型，具有8B参数量。它基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建，通过端到端的方式训练和推理。模型的主要特点包括：

领先的视觉能力在OpenCompass榜单上，MiniCPM-o 2.6以8B量级的大小在单图理解方面超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等主流商用闭源多模态大模型。
出色的语音能力支持可配置声音的中英双语实时对话，语音理解任务表现优于GPT-4o-realtime，并在语音对话的语义和声学评估中展现了开源模型中最高的语音生成性能。
强大的多模态流式交互能力能够接受连续的视频和音频流，并与用户进行实时语音交互，在StreamingBench综合评测基准中取得开源社区最佳水平。
强大的OCR能力及其他功能进一步优化了MiniCPM-V 2.6的视觉理解能力，支持多种语言，并具备可信的多模态行为。

模型架构

图片

端到端全模态架构。 通过端到端的方式连接和训练不同模态的编/解码模块以充分利用丰富的多模态知识。模型完全使用 CE 损失端到端训练。
全模态流式机制。 (1) 我们将不同模态的离线编/解码器改造为适用于流式输入/输出的在线模块。 (2) 我们针对大语言模型基座设计了时分复用的全模态流式信息处理机制，将平行的不同模态的信息流拆分重组为周期性时间片序列。
可配置的声音方案。 我们设计了新的多模态系统提示，包含传统文本系统提示词，和用于指定模型声音的语音系统提示词。模型可在推理时灵活地通过文字或语音样例控制声音风格，并支持端到端声音克隆和音色创建等高级能力。

实力表现

图片

指标表现实力不俗，不输一众大size的模型：

图片

使用简介

MiniCPM-o 2.6可以通过多种方式轻松使用，包括：

llama.cpp：支持在本地设备上进行高效的CPU推理。
int4和GGUF格式的量化模型：有16种尺寸，适用于不同设备。
vLLM：支持高吞吐量和内存高效的推理。
LLaMA-Factory框架：针对新领域和任务进行微调。
Gradio：快速设置本地WebUI演示。

资源传送：

复制

项目地址：https://github.com/OpenBMB/MiniCPM-o
模型地址：https://huggingface.co/openbmb/MiniCPM-o-2_6

如果对内容有什么疑问和建议可以私信和留言，也可以添加我加入大模型交流群，一起讨论大模型在创作、RAG和agent中的应用。

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元

一夜之间，来自中国的大模型刷屏全网。 DeepSeek-V3，一个拥有671B参数的MoE模型，吞吐量每秒高达60 token，比上一代V2直接飙升3倍。在多项基准测试中，V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。

12/27/2024 10:27:58 AM

新智元

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型：8B 参数、高效部署手机

感谢面壁智能昨晚推出并开源 MiniCPM 系列最新的端侧多模态模型 MiniCPM-Llama3-V 2.5，支持 30 种语言，宣称可实现：最强端侧多模态综合性能：超越 Gemini Pro 、GPT-4VOCR 能力 SOTA（IT之家注：State-of-the-Art）：9 倍像素更清晰，难图长图长文本精准识别图像编码快 150 倍：首次端侧系统级多模态加速▲ OpenCompass 模型量级对比MiniCPM-Llama3-V 2.5 总参数量为 8B，多模态综合性能超越 GPT-4V-1106、Ge

5/21/2024 4:07:14 PM

泓澄（实习）

斯坦福团队被曝抄袭清华系大模型，已删库跑路，创始人回应：也算国际认可

斯坦福 AI 团队，竟然曝出了抄袭事件，而且抄袭的还是中国国产的大模型成果 —— 模型结构和代码，几乎一模一样！跟任何抄袭事故一样……AI 圈内都惊呆了。斯坦福的这项研究叫做 Llama3-V，是于 5 月 29 日新鲜发布，宣称只需要 500 美元就能训出一个 SOTA 多模态大模型，比 GPT-4V、Gemini Ultra、Claude Opus 都强。Llama3-V 的 3 位作者或许是拥有名校头衔加持，又有特斯拉、SpaceX 的大厂相关背景，这个项目短短几天就受到了不小的关注。甚至一度冲上了 Hugg

6/3/2024 3:03:16 PM

清源

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Figma 推 AI 革命：开发智能应用制作器与网站创建工具即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 Persona Engine开源发布，AI虚拟助手与Live2D融合打造交互新体验

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora 3D Anthropic AI for Science AI设计机器学习 GPU 开发者 AI视频场景华为预测百度人形机器人伟达苹果 Transformer 深度学习模态 xAI 字节跳动 Claude 大语言模型搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视频生成安全干货合集视觉应用大型语言模型科技亚马逊特斯拉 AGI 训练 2024

顶部