Mistral AI两连发：7B数学推理专用、Mamba2架构代码大模型

2024-07-17 02:57

网友很好奇，Mathstral能不能搞定「9.11和9.9谁大」这一问题。昨天，AI圈竟然被「9.11和9.9谁大」这样简单的问题攻陷了，包括OpenAI GPT-4o、Google Gemini等在内的大语言模型都翻了车。这让我们看到，大语言模型在处理一些数字问题时并不能像人类那样理解并给出正确的答案。对于数字以及复杂的数学问题，专用模型更术业有专攻。今天，法国大模型独角兽 Mistral AI 发布了一个专注于数学推理和科学发现的7B大模型「Mathstral」，来解决需要复杂、多步骤逻辑推理的高级数学问题。该

网友很好奇，Mathstral能不能搞定「9.11和9.9谁大」这一问题。

昨天，AI圈竟然被「9.11和9.9谁大」这样简单的问题攻陷了，包括OpenAI GPT-4o、Google Gemini等在内的大语言模型都翻了车。

这让我们看到，大语言模型在处理一些数字问题时并不能像人类那样理解并给出正确的答案。

对于数字以及复杂的数学问题，专用模型更术业有专攻。

今天，法国大模型独角兽 Mistral AI 发布了一个专注于数学推理和科学发现的7B大模型「Mathstral」，来解决需要复杂、多步骤逻辑推理的高级数学问题。

该模型基于 Mistral 7B 构建，支持的上下文窗口长度为32k，遵循的开源协议为Apache 2.0 license。

Mathstral在构建时追求出色的性能与速度权衡，这是 Mistral AI积极推广的一种开发理念，尤其是微调功能。

同时，Mathstral是一个指令型模型，可以使用它或者对它进行微调。模型权重已经放在了HuggingFace上。

模型权重：https://huggingface.co/mistralai/mathstral-7B-v0.1

下图为 Mathstral 7B和Mistral 7B之间的MMLU性能差异（按学科划分）。

Mathstral在各种行业标准基准上都达到其规模范围内的 SOTA 推理性能。尤其是在MATH数据集上，它取得了 56.6%的通过率，在MMLU上取得了63.47%的通过率。

同时，Mathstral在MATH上的通过率（56.6%）比 Minerva 540B 高出 20% 以上。此外，Mathstral 在MATH 上以多数投票@64的成绩得分为68.4%，使用奖励模型的成绩为 74.6%。

这一成绩也让网友好奇，Mathstral能不能搞定「9.11和9.9谁大」这一问题。

代码大模型：Codestral Mamba

模型权重：https://huggingface.co/mistralai/mamba-codestral-7B-v0.1

与Mathstral 7B一同发布的，还有一款专门用于代码生成的Codestral Mamba模型，使用的是Mamba2架构，同样遵循Apache 2.0 license开源协议。这是一个指导模型，有70多亿参数，研究者可以免费使用、修改和分发。

值得一提的是，Codestral Mamba是在Mamba作者Albert Gu、Tri Dao帮助下设计完成的。

一直以来，Transformer 架构撑起了AI领域的半壁江山，然而，与 Transformer 不同的是，Mamba 模型具有线性时间推理优势，并且理论上能够对无限长度的序列进行建模。该架构允许用户广泛地与模型互动，并且响应迅速，而不受输入长度的限制。这种效率对于代码生成尤其重要。

在基准测试中，Codestral Mamba 在 HumanEval 测试中的表现优于竞争对手开源模型 CodeLlama 7B、CodeGemma-1.17B 和 DeepSeek。

Mistral 测试了该模型，该模型可以在 Mistral 的 la Plateforme API 上免费使用，可处理多达 256,000 个token的输入——是 OpenAI 的 GPT-4o 的两倍。

随着Codestral Mamba发布，就有网友在 VSCode中用起来了，很是丝滑。

参考链接：

https://mistral.ai/news/mathstral/

https://mistral.ai/news/codestral-mamba/

欧洲“DeepSeek”发布了全世界最好的 OCR，网友：蹲蹲中国的免费开源版

就在刚刚，那个曾经开源了首个 MoE 模型的欧洲初创公司 Mistral AI 在沉寂一段时间之后又出新活。 Mistral 团队发布了一个号称“全世界最好的 OCR”的产品 —— Mistral OCR，旨在将一些 AI 难以直接识别的粗糙且复杂的文件进行整理，便于 AI 操作识别。帖子一经发出，评论区瞬间充满了各种夸夸言论，但在一众赞美声中，也不乏一些真正用过产品的网友的理智发言。

3/14/2025 4:25:00 PM

郑佳美

小模型卷起来了：Mistral联合英伟达开源12B小模型，128k上下文

小模型，正在成为 AI 巨头的新战场。今天凌晨，OpenAI 突然发布了 GPT-4o 的迷你版本 ——GPT-4o mini。这个模型替代了原来的 GPT-3.5，作为免费模型在 ChatGPT 上提供。其 API 价格也非常美丽，每百万输入 token 仅为 15 美分，每百万输出 token 60 美分，比之前的 SOTA 模型便宜一个数量级，比 OpenAI 此前最便宜的 GPT-3.5 Turbo 还要便宜 60% 以上。OpenAI CEO 山姆・奥特曼对此的形容是：通往智能的成本已经「too che

7/19/2024 2:40:00 PM

机器之心

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

AI 竞赛正以前所未有的速度加速，继 Meta 昨天推出其新的开源 Llama 3.1 模型之后，法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚，Mistral AI 宣布其旗舰开源模型的下一代产品：Mistral Large 2，该模型拥有 1230 亿个参数，在代码生成、数学、推理等方面与 OpenAI 和 Meta 的最新尖端模型不相上下。紧随 Llama 3.1 405B 之后，Mistral Large 2 的发布让开源大模型的赛道一下子热闹起来，而这一模型的特点是 ——「足够大」。具体来

7/25/2024 10:20:00 AM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

Mistral AI两连发：7B数学推理专用、Mamba2架构代码大模型

相关资讯

欧洲“DeepSeek”发布了全世界最好的 OCR，网友：蹲蹲中国的免费开源版

小模型卷起来了：Mistral联合英伟达开源12B小模型，128k上下文

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B