无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni,支持图像、音频、文本理解

无问芯穹今日宣布,开源无问芯穹端侧解决方案中的全模态理解小模型 Megrez-3B-Omni 和它的纯语言模型版本 Megrez-3B-Instruct。

无问芯穹今日宣布,开源无问芯穹端侧解决方案中的全模态理解小模型 Megrez-3B-Omni 和它的纯语言模型版本 Megrez-3B-Instruct。

无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni,支持图像、音频、文本理解

官方表示,Megrez-3B-Omni 是一个为端而生的全模态理解模型,同时具备图片、音频、文本三种模态数据的处理能力:

  • 图像理解方面,Megrez-3B-Omni 是目前 OpenCompass、MME、MMMU、OCRBench 等多个主流测试集上精度最高的图像理解模型之一。

无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni,支持图像、音频、文本理解

  • 文本理解方面,Megrez-3B-Omni 在 C-EVAL、MMLU / MMLU Pro、AlignBench 等多个权威测试集上取得端上模型最优精度。

无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni,支持图像、音频、文本理解

  • 语音理解方面,Megrez-3B-Omni 支持中文和英文的语音输入,还能够处理复杂的多轮对话场景,也能支持对输入图片或文字的语音提问,实现不同模态间的自由切换。

无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni,支持图像、音频、文本理解

官方宣称,与上一代及其他端侧大语言模型相比,单模态版本的 Megrez-3B-Instruct 在推理速度上取得了显著提升,最大推理速度可以领先同精度模型 300%

无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni,支持图像、音频、文本理解

AI在线附相关链接如下:

  • Github:https://github.com/infinigence/Infini-Megrez

  • HuggingFace:https://huggingface.co/Infinigence/Megrez-3B-Omni

  • Infini-AI 异构云:https://cloud.infini-ai.com/genstudio/model/mo-c73owqiotql7lozr

  • Modelers:https://modelers.cn/models/INFINIGENCE-AI/Megrez-3B-Omni

  • ModelScope:https://www.modelscope.cn/models/InfiniAI/Megrez-3B-Omni

给TA打赏
共{{data.count}}人
人已打赏
应用

武汉大学人工智能学院成立,小米集团称期待合作

2024-12-16 12:24:47

应用

细节表现超Sora,网友:真正的国产之光!MiniMax视频模型再上新

2024-12-16 14:04:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索