一条磁力链接席卷AI圈，87GB种子直接开源8x7B MoE模型

2023-12-11 03:44

「高端」的开源，往往采用最朴素的发布方式。昨天，Mistral AI 在 X 平台甩出一条磁力链接，宣布了新的开源动作。没有长篇官方博客，没有刻意加速的 Demo，这家公司算是当下大模型领域的「一股清流」。打开一看，发现是接近 87 GB 的种子：参数配置什么样？很多人放弃了周末，第一时间下载运行起来。看上去，Mistral 8x7B 使用了与 GPT-4 非常相似的架构，但是「缩小版」： 8 个专家总数，而不是 16 名（减少一半）每个专家为 7B 参数，而不是 166B（减少 24 倍）42B 总参数（估计）

「高端」的开源，往往采用最朴素的发布方式。

昨天，Mistral AI 在 X 平台甩出一条磁力链接，宣布了新的开源动作。

没有长篇官方博客，没有刻意加速的 Demo，这家公司算是当下大模型领域的「一股清流」。

打开一看，发现是接近 87 GB 的种子：

参数配置什么样？很多人放弃了周末，第一时间下载运行起来。

看上去，Mistral 8x7B 使用了与 GPT-4 非常相似的架构，但是「缩小版」：

8 个专家总数，而不是 16 名（减少一半）

每个专家为 7B 参数，而不是 166B（减少 24 倍）

42B 总参数（估计）而不是 1.8T（减少 42 倍）

与原始 GPT-4 相同的 32K 上下文

在发布后 24 小时内，已经有开发者做出了在线体验网站：https://replicate.com/nateraw/mixtral-8x7b-32kseqlen

有研究者称：「闭源大模型走到结局了。」

这周已经引发群嘲的谷歌，也再次被 Cue 到：

专家混合 (MoE) 是 LLM 中常用的一种技术，旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务，每个子任务都由专门的迷你模型或「专家」处理。

具体来说，「专家层」是较小的神经网络，经过训练在特定领域具有高技能，每个专家处理相同的输入，但处理方式与其特定的专业相一致；「门控网络」是 MoE 架构的决策者，能评估哪位专家最适合给定的输入数据。网络计算输入与每个专家之间的兼容性分数，然后使用这些分数来确定每个专家在任务中的参与程度。

我们都知道，OpenAI 团队一直对 GPT-4 的参数量和训练细节守口如瓶。早些时候，有人爆料 GPT-4 是采用了由 8 个专家模型组成的集成系统。后来又有传闻称，ChatGPT 也只是百亿参数级的模型（大概在 200 亿左右）。

传闻无从证明，但 Mistral 8x7B 可能提供了一种「非常接近 GPT-4」的开源选项。从模型元数据中可以看出，对于每个 token 的推理，Mistral 8x7B 仅使用 2 个专家。

更让人感觉有趣的是，这是该公司官方账号自开通以来发布的第三条内容，两次重要发布均无文字说明，配图什么的更是不存在：

9 月底的那条链接发布的是 Mistral 7B，该模型至今仍被称为「最好的 7B 模型」，在每个基准测试中都优于 Llama-2 13B，并且在代码、数学和推理方面优于 LLaMA-1 34B。

Mistral AI 成立于 2023 年 5 月，是一家法国人工智能初创公司，也是为数不多来自欧洲的大模型开源领域的明星团队。

Mistral AI 曾在 6 月获得了创纪录的 1.18 亿美元种子轮融资，还是在仅有 7 页 PPT 的情况下，据说这是欧洲历史上最大的种子轮融资。

Mistral AI 团队成员。

公司创始人之一 Arthur Mensch 曾在 10 月份向《金融时报》表示，Mistral AI 的技术比美国的一些强大竞争对手开发的技术更高效、成本更低。

技术实力的优越，也为这家公司带来了投资者的持续关注。

近日，《金融时报》报道了 Mistral AI 新一轮融资的动态：新一轮融资约 4 亿欧元，主要由股权组成，可能在下周官宣。目前，公司的最新估值在 20 亿欧元左右。

知情人士透露，新一轮融资由硅谷著名风投 Andreessen Horowitz 牵头，其他参与者还包括英伟达、Salesforce、General Catalyst、法国巴黎银行等。

Mistral AI 的其他投资者还包括谷歌前 CEO 埃里克・施密特 (Eric Schmidt)、法国电信亿万富翁泽维尔・尼尔 (Xavier Niel) 和法国国家支持的投资银行 Bpifrance。

这篇报道还提到，Arthur Mensch 表示「虽然公司尚未赚到任何钱，但预计这种情况将在年底前发生改变，因为该公司准备了一个新平台，供客户访问其人工智能模型。」

参考链接：https://www.ft.com/content/ea29ddf8-91cb-45e8-86a0-f501ab7ad9bb

欧洲“DeepSeek”发布了全世界最好的 OCR，网友：蹲蹲中国的免费开源版

就在刚刚，那个曾经开源了首个 MoE 模型的欧洲初创公司 Mistral AI 在沉寂一段时间之后又出新活。 Mistral 团队发布了一个号称“全世界最好的 OCR”的产品 —— Mistral OCR，旨在将一些 AI 难以直接识别的粗糙且复杂的文件进行整理，便于 AI 操作识别。帖子一经发出，评论区瞬间充满了各种夸夸言论，但在一众赞美声中，也不乏一些真正用过产品的网友的理智发言。

3/14/2025 4:25:00 PM

郑佳美

小模型卷起来了：Mistral联合英伟达开源12B小模型，128k上下文

小模型，正在成为 AI 巨头的新战场。今天凌晨，OpenAI 突然发布了 GPT-4o 的迷你版本 ——GPT-4o mini。这个模型替代了原来的 GPT-3.5，作为免费模型在 ChatGPT 上提供。其 API 价格也非常美丽，每百万输入 token 仅为 15 美分，每百万输出 token 60 美分，比之前的 SOTA 模型便宜一个数量级，比 OpenAI 此前最便宜的 GPT-3.5 Turbo 还要便宜 60% 以上。OpenAI CEO 山姆・奥特曼对此的形容是：通往智能的成本已经「too che

7/19/2024 2:40:00 PM

机器之心

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B

AI 竞赛正以前所未有的速度加速，继 Meta 昨天推出其新的开源 Llama 3.1 模型之后，法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚，Mistral AI 宣布其旗舰开源模型的下一代产品：Mistral Large 2，该模型拥有 1230 亿个参数，在代码生成、数学、推理等方面与 OpenAI 和 Meta 的最新尖端模型不相上下。紧随 Llama 3.1 405B 之后，Mistral Large 2 的发布让开源大模型的赛道一下子热闹起来，而这一模型的特点是 ——「足够大」。具体来

7/25/2024 10:20:00 AM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

一条磁力链接席卷AI圈，87GB种子直接开源8x7B MoE模型

相关资讯

欧洲“DeepSeek”发布了全世界最好的 OCR，网友：蹲蹲中国的免费开源版

小模型卷起来了：Mistral联合英伟达开源12B小模型，128k上下文

精准狙击Llama 3.1？Mistral AI开源Large 2，123B媲美Llama 405B