全球首个全模态理解开源端模型:长语音自动总结,图文音啥都会!300%推理速度领先,来自无问芯穹

全球首个端侧全模态理解开源模型来了! 在菜单里帮忙选奶茶,不在话下:还能帮忙轻松提炼长语音,再也不用对着一串几十秒语音头皮发麻(doge)。 就在刚刚,无问芯穹宣布开源目前世界上首个端侧全模态理解的开源模型Megrez-3B-Omni,不仅体积轻巧,速度飞快,更是一个多才多艺的全能选手,能够轻松处理图片、音频、文本三种模态数据。

全球首个端侧全模态理解开源模型来了!

在菜单里帮忙选奶茶,不在话下:

图片

还能帮忙轻松提炼长语音,再也不用对着一串几十秒语音头皮发麻(doge)。

图片

就在刚刚,无问芯穹宣布开源目前世界上首个端侧全模态理解的开源模型Megrez-3B-Omni,不仅体积轻巧,速度飞快,更是一个多才多艺的全能选手,能够轻松处理图片、音频、文本三种模态数据。

在众多测评基准中,Megrez-3B-Omni在图片、文本、音频三个模态中均取得了同尺寸下最优性能。作为一个3B模型,综合性能表现甚至能超过34B模型。

图片

具体来说,Megrez-3B-Omni采用了专为手机、平板等端侧设备量身定制的30亿参数黄金尺寸,主干网络参数规模更是仅有2.3B,精度超越了上一代14B模型,最大推理速度更是比同精度模型快达300%。

图片

图像理解

在图像理解方面,Megrez-3B-Omni作为一个体积仅为3B的模型,其综合性能表现可以全面超过34B的庞然大物,是目前OpenCompass、MME、MMMU、OCRBench等多个主流测试集上精度最高的图像理解模型之一。

图片图片

与此同时,Megrez-3B-Omni 在场景理解、OCR等任务上也具有良好表现,能够准确洞察和分析任意比例尺寸图像中的场景内容,并高效地从中提取文本信息,且无论是模糊的印刷体还是复杂的手写字,都能够轻松识别。

不仅能理解手机屏幕上的信息,给定条件辅助商品挑选。

读取手写字体,一样轻松搞定:

图片

文本理解

在文本理解方面,作为全模态理解模型,Megrez-3B-Omni在没有牺牲模型的文本处理能力的前提下,将上一代14B大模型的优秀能力压缩至3B规模,显著降低了计算成本、提升了计算效率。

在C-EVAL、MMLU/MMLU Pro、AlignBench等多个权威测试集上更是取得端上模型最优精度,在文本理解方面确立了全球领先地位。同时,以更少的资源消耗,实现了更高的性能输出,为端侧设备的智能化提供了进一步突破精度与速度边界的全新可能。

图片图片

de个Bug,成功:

图片

紧急处理备忘录中的资料,也没问题:

图片

音频理解

在语音理解方面,Megrez-3B-Omni的效果比肩行业主流方案。Megrez-3B-Omni不仅支持中文和英文的语音输入,还能够处理复杂的多轮对话场景,更能支持对输入图片或文字的语音提问。

图片

用户就任意模态内容,发出语音指令,Megrez-3B-Omni就能根据语音指令直接响应文本,实现多轮对话中语音与文本输入的自由切换,让用户可以通过更少动作与模型展开更直观、自然的交互。

遇到客户的超长语音连击也不怕了:

图片

支持语音问图,还能听口令写小作文:

图片

推理效率高,应用场景灵活

模型的规模并不是决定其速度的唯一因素,因此模型小并不一定就意味着速度快。凭借对硬件特性的深入理解与利用,Megrez-3B-Omni 通过软硬件协同优化策略,确保了各参数与主流硬件高度适配,以实现硬件性能的利用最大化。

与上一代及其他端侧大语言模型相比,单模态LLM版本的Megrez-3B-Instruct 在推理速度上取得了显著提升,最大推理速度可以领先同精度模型300%。

图片

Megrez-3B-Instruct这次还特别提供了WebSearch功能,这一功能使得模型能够智能地判断何时需要调用外部工具进行网页搜索,辅助回答用户的问题。用户得以构建属于自己AI搜索,通过网络获取最新信息,克服小模型的幻觉问题和知识储备不足的局限。

有时,模型通过搜索网页可以更全面地完成回答,而其他时候,模型自身已具备足够的知识来独立解决问题,过多的搜索调用可能会降低推理速度和效果。Megrez-3B-Instruct 通过在搜索和对话之间智能切换,避免了过度依赖搜索或完全不调用搜索的问题。除了可以自动决策工具调用时机之外,Megrez-3B-Instruct 还具备上下文理解性能优异、可提供带参考信息的结构化输出等优势。

图片

目前,这些能力已集成于Megrez-3B-Instruct 模型中,用户可以通过System Prompt 自由切换,同时享受到高精度模型推理能力与智能WebSearch 调用收益。

One More Thing

相较于云端大模型,端侧模型需要在资源有限的设备上快速部署、高效运行,对降低模型计算和存储需求提出更高要求。

无问芯穹技术团队源起于清华大学电子工程系NICS-EFC实验室,在模型压缩、推理加速及硬件能耗优化等领域拥有深入的学术研究和深厚的工程实践经验,正是模型轻量化、软硬件协同优化领域的顶尖团队。

无问芯穹表示,Megrez-3B-Omni是一个能力预览,接下来还将持续迭代Megrez系列,提升自动化水平至“edge device use”效果,让用户只需要给出简单的语音指令,就可完成端设备的设置或应用操作,并将它作为“端模型+端软件+端IP”端上智能一体化解决方案的重要构成推向市场。目前,无问芯穹就该一体化方案已与多家知名智能设备和终端芯片厂商展开合作。

图片

在这个方案中,除端侧全模态理解模型外,还有端上推理软件和IP设计方案,不仅支持CPU、GPU和NPU 的同时推理,更能通过跨越软硬件层次的系统优化,额外带来最高可达70%的性能提升,最大化端侧硬件性能的利用。

对那些久困于功耗、速度、续航以及智能效果的端侧设备来说,这意味着,效果更佳的智能升级成为可能。

Github: https://github.com/infinigence/Infini-Megrez。HuggingFace:https://huggingface.co/Infinigence/Megrez-3B-Omni。登录Infini-AI异构云体验纯语言版本Megrez-3B-Instruct:https://cloud.infini-ai.com/genstudio/model/mo-c73owqiotql7lozr。

相关资讯

2024年AI趋势看这张图,LeCun:开源大模型要超越闭源

能感受到其中的趋势吗?2023 年即将过去。一年以来,各式各样的大模型争相发布。当 OpenAI 和谷歌等科技巨头正在角逐时,另一方「势力」悄然崛起 —— 开源。开源模型受到的质疑一向不少。它们是否能像专有模型一样优秀?是否能够媲美专有模型的性能?迄今为止,我们一直还只能说是某些方面接近。即便如此,开源模型总会给我们带来经验的表现,让我们刮目相看。开源模型的兴起正在改变游戏规则。如 Meta 的 LLaMA 系列以其快速迭代、可定制性和隐私性正受到追捧。这些模型被社区迅速发展,给专有模型带来了强有力的挑战,能够改变

DeepMind 开源大模型 GenCast 登 Nature:8 分钟预测 15 日天气

DeepMind 大模型再登上 Nature —— 气象预测大模型 GenCast,8 分钟内完成 15 天的预测,而且不管常规还是极端天气都能分析。

北交开源 o1 代码版:强化学习 + 蒙特卡洛树搜索,放出源代码、精选数据集以及衍生模型

团队认为编码是一个需要 System-2 思维方式的典型任务,涉及谨慎、逻辑、一步步的问题解决过程。而他们的策略是将强化学习(RL)与蒙特卡洛树搜索(MCTS)相结合,让模型能够不断生成推理数据,提升其 System-2 能力。