2B参数功能超Mistral-7B:面壁智能多模态端侧模型开源

千元机也能本地运行。在大模型不断向着大体量方向前进的同时,最近一段时间,人们在优化和摆设方面也取得了成果。2 月 1 日,面壁智能联合清华 NLP 实验室在北京正式颁布了旗舰端侧大模型「面壁 MiniCPM」。新一代大模型被称为「功能小钢炮」,直接拥抱终端摆设,同时也具有同量级最强的多模态能力。面壁智能本次提出的 MiniCPM 2B 参数目仅有 20 亿,使用 1T token 的精选数据训练。这是一个参数目上与 2018 年 BERT 同级的模型,面壁智能在其之上完成了极致的功能优化与成本控制,让该模型可以「越

千元机也能本地运行。

在大模型不断向着大体量方向前进的同时,最近一段时间,人们在优化和摆设方面也取得了成果。

2 月 1 日,面壁智能联合清华 NLP 实验室在北京正式颁布了旗舰端侧大模型「面壁 MiniCPM」。新一代大模型被称为「功能小钢炮」,直接拥抱终端摆设,同时也具有同量级最强的多模态能力。

面壁智能本次提出的 MiniCPM 2B 参数目仅有 20 亿,使用 1T token 的精选数据训练。这是一个参数目上与 2018 年 BERT 同级的模型,面壁智能在其之上完成了极致的功能优化与成本控制,让该模型可以「越级打怪」。

面壁智能联合创始人、CEO 李大海将新模型与业内知名开源大模型 Mistral-7B 进行了对比,在多项主流评测榜单上,MiniCPM 2B 的功能全面超越了后者。

2B参数功能超Mistral-7B:面壁智能多模态端侧模型开源

与微软近期提出的「小模型」Phi-2 相比,MiniCPM 也有很大优势。

2B参数功能超Mistral-7B:面壁智能多模态端侧模型开源

李大海表示,面壁智能的新模型还能越级完成 13B、30B 甚至 40B 模型的能力。在最接近用户体验的评测榜单 MT-Bench 上,MiniCPM 取得了 7 分的成绩(GPT-4-Turbo 为 9 分)。

2B参数功能超Mistral-7B:面壁智能多模态端侧模型开源

在现场,面壁智能也示范了 MiniCPM 的实际利用效果。虽然参数目不大,但该模型可以完成文本翻译、角色扮演等诸多大模型应有的能力,并拥有丰富的知识,难度较高的代码解释任务也不在话下。

2B参数功能超Mistral-7B:面壁智能多模态端侧模型开源

因为能够摆设在端侧,在面临一些突发事件时,MiniCPM 也可以给人们提供及时帮助:

2B参数功能超Mistral-7B:面壁智能多模态端侧模型开源

最近,各家手机厂商纷纷提出了端侧大模型,在把大语言模型压缩到较小体量之后,我们就能用它连接更多场景,在算力、内存受限的情况下获得更高程度的智能。相比之下,面壁智能提出的新技能更加轻便,可适用于更低配置,或较早期型号的手机。

据面壁智能介绍,MiniCPM 端侧模型经历了 Int4 量化后压缩了 75% 体量,只占用 2G 内存,与此同时功能几乎没有损失,因此已在各类常见型号的手机上完成了跑通。

2B参数功能超Mistral-7B:面壁智能多模态端侧模型开源

因为支持移动端 CPU 的推理,MiniCPM 可以很大程度上节约使用成本。面壁智能为我们算了一笔账:一台搭载骁龙 855 的手机使用 MiniCPM,一块钱电费可处理 170 万 token,这个价格仅为云端运行的 Mistral-Medium 的 1%。

除了端侧模型,面壁智能还展示了其在多模态大模型方面的探索,并开源了 12B 参数目的 OmniLMM。在颁布会上,面壁智能示范了 Gemini 颁布时同款的石头剪刀布 demo。用英文向 AI 提问:我正在玩什么游戏?大模型会回答:石头剪子布。

2B参数功能超Mistral-7B:面壁智能多模态端侧模型开源

与此同时,OmniLMM 也可以认出人类的手势,还能告诉你如果要赢应该出什么。

OmniLMM 还可以理解很多图片中的信息并进行推理,如地标建筑、电视台的台标、人们组织的活动等内容。

2B参数功能超Mistral-7B:面壁智能多模态端侧模型开源

看来,我们距离真正多模态的大模型,以及新形态的利用已经不远了。

面壁智能大模型极致功能的背后,源于该公司长期以来的技能聚集。自 2021 年,面壁智能就建立了高效的技能栈,集中在 Infra、算法和数据方法论三个方向。其中,自研的 BMTrain 高效训练框架至关重要。

2B参数功能超Mistral-7B:面壁智能多模态端侧模型开源

在算法层面上,面壁智能也聚集了模型沙盒体系,把大模型从炼丹提升到了实验科学的程度,在理论上不断寻找超参数和规模的最优解,如最优的 batch size、所有尺寸模型通用的超参数配置。

目前,面壁智能已聚集了大量高质量的数据。在昨天的颁布后,面壁智能开源了自身的新一代大模型系列(包含 MiniCPM-SFT / DPOMiniCPM-V & MiniCPM-SFT / DPO-int4),以及训练 MiniCPM 两个阶段的数据配方以供行业参考。

开源地址(含技能报告):

MiniCPM GitHub:https://github.com/OpenBMB/MiniCPM

OmniLMM GitHub:https://github.com/OpenBMB/OmniLMM

面壁智能源于清华 NLP 实验室,是在国内较早开展大模型研究的团队之一,其在 2018 年颁布了全球首个基于知识指导的预训练模型 ERNIE。2022 年 8 月开始公司化运作的面壁智能,去年经历了两轮融资,其推出的利用「面壁露卡」也拿到了网信办第二批大模型备案。

目前,面壁智能已经组建起 100 余人的科研团队,其中 80% 人员来自清北,平均年龄 28 岁。

2B参数功能超Mistral-7B:面壁智能多模态端侧模型开源

面壁智能正在建立大模型 + Agent 的双引擎战略,希望能建立出更小规模、更快速度、更低成本的解决方案。

今年,面壁智能还将加快速度迭代新技能。「我们会在春节之后不断颁布 MiniCPM 的新版本,功能还会进一步提升。我们要给大家春节的休息时间,」刘知远表示。

给TA打赏
共{{data.count}}人
人已打赏
应用

中国初创Xreal获新融资,以699 美元提供Apple Vision Pro风格的XR体会

2024-2-2 14:45:00

应用

年龄两岁,教龄一年半:婴儿AI训练师登上Science

2024-2-2 17:23:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索