下周苹果即将召开发布会了!
但最令笔者期待的不是 iphone16,而是苹果今年提出的 Apple Intelligence 的进展,这是苹果今年进军端侧 AI 的一大杀手锏。
其实早在今年年初,国内就有一家当时还名不见经传的大模型公司率先喊出 “端侧AI是未来大趋势”的口号,当时还没有太多玩家意识到端侧AI的重要性。仅仅半年后,谷歌、苹果等巨头就纷纷掉头转向,开始大模型反卷小型化,就连 OpenAI 也一反“大力出奇迹”的常态,不得不顺应端侧AI大趋势,推出的更小、更便宜、更高效的 GPT-4o mini。
可以说,端侧AI 已然成为了大模型必争之地!
然而就在苹果发布会一周前这个时间点,同样是这家国内大模型公司,率先把「 ChatGPT 」跑在了端侧!宣告了端侧 ChatGPT 时刻的到来!而且还在赶在OpenAI、谷歌、苹果等巨头之前。
没错,这家公司就是面壁智能,今天刚刚发布了新一代基座模型面壁小钢炮 MiniCPM 3.0 ,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能,强得不像端侧模型。
这还是一款瑞士军刀般全面开挂的基座模型,一口气带来:
无限长文本,榜单性能超越 Kimi,超长文本也不崩;
性能比肩 GPT-4o 的端侧最强 Function Calling;
超强 RAG 外挂三件套,中文检索第一、生成超 Llama3-8B。
➤ MiniCPM 3.0 开源地址:
GitHub:https://github.com/OpenBMB/MiniCPM
HuggingFace:https://huggingface.co/openbmb/MiniCPM3-4B
1.让 「GPT-3.5 」在端侧跑起来,面壁提前兑现承诺
今年年初,面壁在初代面壁小钢炮发布时立下 Flag:今年内让 GPT-3.5 水平的模型在端侧跑起来!
没想到,面壁智能总是能给人惊喜,他们提前兑现了承诺,提前近 4 个月将其实现!
MiniCPM 3.0 再次挖掘端侧模型的极致性能,仅 4B 参数,在包括自然语言理解、知识、代码、数学等多项能力上对 GPT-3.5 实现赶超,在 Qwen2-7B、 Phi-3.5、GLM4-9B、LLaMa3-8B 等一众中外知名模型脱颖而出。
2.大模型科学化方法论指导,面壁定律再落一子
为何每一代面壁小钢炮基座模型的发布,都以小博大,拥有超预期的高效与强悍?
背后原因,AI科技评论早在半年前就曾深入挖掘并报道:被低估的面壁:打造出不输 OpenAI 的 Scaling Law 曲线
面壁紧紧围绕 Scaling Law 的核心,高效构建了大模型的科学化方法论,将提升知识密度视为高效大模型的第一性原理(知识密度 =模型能力/参与计算的模型参数),并且提出了大模型时代的「摩尔定律」:模型知识密度不断提升,平均每 8 个月提升一倍,称之为「面壁定律」。
这一年来,面壁在自家的大模型科学化方法论指导下,历经数次调整,构建了全新技术架构,于面壁定律的趋势曲线再落一子。
不止是基座模型,面壁的多模态模型同样优秀的不像是款端侧模型!
他们一个月前发布的 MiniCPM-V 2.6,首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V,三项能力均取得 20B 以下 SOTA 成绩,单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini。
总结来说:
基座模型方面:面壁率先让 「GPT-3.5 」在端侧跑起来;
多模态模型方面:面壁同样率先让「GPT-4V」跑在手机上!
下面详细介绍一下面壁新一代性能超越 GPT-3.5的 面壁小钢炮 MiniCPM 3.0。
3.顶尖实力大集结,大模型中的“瑞士军刀”
新一代小钢炮集长文本、Function Call 与 RAG 等大模型重要能力于一身,小而强,小而全。仅4B体量,在这些呼声极高的模型功能上,MiniCPM 3.0 集结各家所长,并且对业界颇有口碑的模型实现超越,堪称是大模型中的“瑞士军刀”。
面壁「无限」长文本,性能超 Kimi:长长长文本不崩!
上下文长度是衡量大模型基础能力的一项重要指标,更长的上下文长度意味大模型拥有更大的“内存”和更长的“记忆”,不仅能提高大模型处理数据的能力上限,还能拓宽大模型应用的广度和深度。
面壁提出 LLMxMapReduce长本文分帧处理技术 ,一举实现「无限」长文本!32, 128, 256, 512K…MiniCPM 3.0 打破大模型记忆限制,可以将上下文长度无限稳定拓展,想多长就多长!
除了超越 GPT-4、KimiChat 等标杆模型的优异表现( InfiniteBench 榜单成绩);更神奇的是,文本越长,这个4B小钢炮凭借愈加稳定的表现,展现出的性能优势越强。
InfiniteBench大模型长文本能力的权威评测集 检索、数学、代码、问答和摘要等多维度能力评估
① MiniCPM 3.0 表现超越 GPT-4、KimiChat、Qwen2-70B;
② 千亿模型 Qwen2-70B、Llama3-70b 结合LLMxMapReduce也取得更佳表现。
InfiniteBench Zh.QA 评测结果显示,4B参数的面壁小钢炮整体性能优于Kimi,在更长的文本上表现出相较更强的稳定性。
LLMxMapReduce 技术框架图
拥有无限上下文, 可以让模型一次性读取不限字数的书籍或不限量的学术论文、简历等材料,成为你身边更加强大的终端个人助手。模型还可以读取你的大众点评美食、酒店评价、微博互动内容,并牢牢记住你和AI 跨越多年的聊天记录,成为最懂你的AI陪伴者。
GPT-4o 级 Function calling ,终端Agent应用蓄势待发
智能体应用是端侧AI 必争之地,其中一项至关重要的技术是 Function Calling(函数调用),它能够将用户模糊化的输入语义转换为机器可以精确理解执行的结构化指令,并让大模型连接外部工具和系统,例如通过语音在手机上调用日历、天气、邮件、浏览器等 APP 或相册、文件等本地数据库,从而打开终端设备 Agent 应用的无限可能,也让人机交互更加自然和方便。
MiniCPM 3.0 拥有端侧最强 Function calling 性能 ,在权威评测榜单 Berkeley Function-Calling Leaderboard 上,其性能接近 GPT-4o,并超越 Llama 3.1-8B、Qwen-2-7B、GLM-4-9B 等众多模型。
RAG 外挂三件套,中文检索第一,生成超 Llama3-8B
端侧模型也能开外挂,RAG(检索增强生成技术)让模型引用外部知识库,检索到最新、最可靠的专业知识,确保生成内容更加可信,大大减少大模型的幻觉问题。大模型+RAG 在行业中极其实用,尤其是对法律、医疗等依赖专业知识库、对大模型幻觉容忍度极低的垂直行业。
我们一口气带来超强 RAG 外挂三件套:MiniCPM-Embedding(检索模型)、MiniCPM-Reranker(重排序模型)和面向 RAG 场景的 LoRA 插件(生成模型),款款优秀:
MiniCPM-Embedding(检索模型)中英跨语言检索取得 SOTA 性能,在评估模型文本嵌入能力的权威评测集 MTEB 的检索榜单上中文第一、英文第十三 ;
MiniCPM-Reranker(重排序模型)在中文、英文、中英跨语言测试上取得 SOTA 性能 ;
经过针对 RAG 场景的 LoRA 训练后,MiniCPM 3.0-RAG-LoRA 在开放域问答(NQ、TQA、MARCO)、多跳问答(HotpotQA)、对话(WoW)、事实核查(FEVER)和信息填充(T-REx)等多项任务上的性能表现,超越 Llama3-8B 和 Baichuan2-13B 等业内优秀模型。
4.安全,可靠,皮实,端侧大模型就看面壁小钢炮
轻、快、高效低成本,更友好的端侧体验,是面壁小钢炮系列一以贯之的优点。MiniCPM 3.0 量化后仅 2.2 G 内存,端侧应用十分友好。
相比云端模型,面壁小钢炮 MiniCPM 系列模型有一颗陪你行走世界的大心脏,天然具有弱网、断网可用、超低时延、数据隐私安全等本地优势。无论是陪你闯荡精彩远方、勇敢探索,还是将眼前的琐碎默默打理与守护,MiniCPM都是值得信任的大模型好朋友。
最后,笔者还想聊一下观察到的面壁智能端侧AI的下一步。
5.面壁小钢炮+机器人,开启具身智能无限可能
大模型与机器人融合的 “具身智能”,是未来十年最令人期待的科技突破之一!
最近,面壁小钢炮 MiniCPM 端侧模型在这方面迈出了关键一步。
一是联手加速进化机器人,打造出完整“具身智能”的先驱方案,业界首个高效端侧模型运行在人形机器人的演示,理解、推理、并与物理世界互动的智能系统,这激动人心的未来场景,已拉开帷幕!
二是联手大象机器人。前些天 MiniCPM 端侧模型将植入大象机器人旗下仿真陪伴宠物机器人 metaCat 米塔猫,高效端侧模型能够显著提升仿真机器宠物“类生命体”的智能交互体验:不依赖网络,不需要复杂的硬件改造,以更自由更自然的交互,让机器萌宠触发声、光、电、动作响应,仿真感更强,情感陪伴更加逼真。
面壁小钢炮 MiniCPM 端侧模型之前在 PC、平板、手机已有实际运行,最近面壁智能与加速进化机器人和大象机器人的合作,让笔者看到了面壁智能从端侧AI+机器人方向切入具身智能的无限可能。触角也伸入智能座舱,面壁联合MTK,为梧桐科技提供了MiniCPM车载多模态大模型,实现舱驾协控相关的功能控制,包括知识查询和人-车-环境感知融合的多模态增强理解模块,成为梧桐科技A I座舱芯算一体的端侧大模型重要合作伙伴!
未来大模型+机器人演化出终极形态,端侧智能无处不在,面壁智能天地广阔。