Mistral 发布 Pixtral Large 多模态 AI 模型:登顶复杂数学推理,图表 / 文档推理超过 GPT-4o

Mistral AI 公司昨日(11 月 18 日)发布公告,宣布了全新的多模态 AI 模型 Pixtral Large。该模型拥有 1240 亿参数,基于 Mistral Large 2,主要用于处理文本和图片。

IT之家 11 月 19 日消息,Mistral AI 公司昨日(11 月 18 日)发布公告,宣布了全新的多模态 AI 模型 Pixtral Large。该模型拥有 1240 亿参数,基于 Mistral Large 2,主要用于处理文本和图片。

Pixtral Large 现已在 Mistral 研究许可证和商业许可证下提供,适用于研究、教育以及商业用途。

Pixtral Large 是 Mistral AI 多模态家族中的第二个模型。IT之家援引官方新闻稿,该模型在 MathVista、DocVQA 和 VQAv2 等标准多模态基准测试中表现出色,尤其在 MathVista 中达到了 69.4% 的准确率,超越了所有竞争对手。

Mistral 发布 Pixtral Large 多模态 AI 模型:登顶复杂数学推理,图表 / 文档推理超过 GPT-4o

Mistral 发布 Pixtral Large 多模态 AI 模型:登顶复杂数学推理,图表 / 文档推理超过 GPT-4o

在 ChartQA 和 DocVQA 测试中,Pixtral Large 同样表现优异,超越了 GPT-4o 和 Gemini-1.5 Pro。

Mistral 发布 Pixtral Large 多模态 AI 模型:登顶复杂数学推理,图表 / 文档推理超过 GPT-4o

该模型配备了 123B 的多模态解码器和 1B 的视觉编码器,支持 128K 的上下文窗口,能够处理至少 30 张高分辨率图像。Pixtral Large 不仅在视觉数据上表现出色,同时在复杂推理和图表理解方面也具备强大能力。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关资讯

小模型卷起来了:Mistral联合英伟达开源12B小模型,128k上下文

小模型,正在成为 AI 巨头的新战场。今天凌晨,OpenAI 突然发布了 GPT-4o 的迷你版本 ——GPT-4o mini。这个模型替代了原来的 GPT-3.5,作为免费模型在 ChatGPT 上提供。其 API 价格也非常美丽,每百万输入 token 仅为 15 美分,每百万输出 token 60 美分, 比之前的 SOTA 模型便宜一个数量级,比 OpenAI 此前最便宜的 GPT-3.5 Turbo 还要便宜 60% 以上。OpenAI CEO 山姆・奥特曼对此的形容是:通往智能的成本已经「too che

精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B

AI 竞赛正以前所未有的速度加速,继 Meta 昨天推出其新的开源 Llama 3.1 模型之后,法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚,Mistral AI 宣布其旗舰开源模型的下一代产品:Mistral Large 2,该模型拥有 1230 亿个参数,在代码生成、数学、推理等方面与 OpenAI 和 Meta 的最新尖端模型不相上下。紧随 Llama 3.1 405B 之后,Mistral Large 2 的发布让开源大模型的赛道一下子热闹起来,而这一模型的特点是 ——「足够大」。具体来

专访纽约城市大学田英利教授:用多通道、多模态的方法「看懂」手语

与聋哑人交流,是一件成本很高的事情。 首先要看得懂手语,其次是会打手语。 在全球任何一个国家,手语都被归属为一门“小语种”。