一条磁力链接席卷AI圈,87GB种子直接开源8x7B MoE模型

「高端」的开源,往往采用最朴素的发布方式。昨天,Mistral AI 在 X 平台甩出一条磁力链接,宣布了新的开源动作。没有长篇官方博客,没有刻意加速的 Demo,这家公司算是当下大模型领域的「一股清流」。打开一看,发现是接近 87 GB 的种子:参数配置什么样?很多人放弃了周末,第一时间下载运行起来。看上去,Mistral 8x7B 使用了与 GPT-4 非常相似的架构,但是「缩小版」: 8 个专家总数,而不是 16 名(减少一半) 每个专家为 7B 参数,而不是 166B(减少 24 倍)42B 总参数(估计)

「高端」的开源,往往采用最朴素的发布方式。

昨天,Mistral AI 在 X 平台甩出一条磁力链接,宣布了新的开源动作。

图片

没有长篇官方博客,没有刻意加速的 Demo,这家公司算是当下大模型领域的「一股清流」。

打开一看,发现是接近 87 GB 的种子:

图片

参数配置什么样?很多人放弃了周末,第一时间下载运行起来。

看上去,Mistral 8x7B 使用了与 GPT-4 非常相似的架构,但是「缩小版」: 

8 个专家总数,而不是 16 名(减少一半) 

每个专家为 7B 参数,而不是 166B(减少 24 倍)

42B 总参数(估计)而不是 1.8T(减少 42 倍)

与原始 GPT-4 相同的 32K 上下文

在发布后 24 小时内,已经有开发者做出了在线体验网站:https://replicate.com/nateraw/mixtral-8x7b-32kseqlen

有研究者称:「闭源大模型走到结局了。」

图片

这周已经引发群嘲的谷歌,也再次被 Cue 到:

图片

专家混合 (MoE) 是 LLM 中常用的一种技术,旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务,每个子任务都由专门的迷你模型或「专家」处理。

具体来说,「专家层」是较小的神经网络,经过训练在特定领域具有高技能,每个专家处理相同的输入,但处理方式与其特定的专业相一致;「门控网络」是 MoE 架构的决策者,能评估哪位专家最适合给定的输入数据。网络计算输入与每个专家之间的兼容性分数,然后使用这些分数来确定每个专家在任务中的参与程度。

我们都知道,OpenAI 团队一直对 GPT-4 的参数量和训练细节守口如瓶。早些时候,有人爆料 GPT-4 是采用了由 8 个专家模型组成的集成系统。后来又有传闻称,ChatGPT 也只是百亿参数级的模型(大概在 200 亿左右)。

传闻无从证明,但 Mistral 8x7B 可能提供了一种「非常接近 GPT-4」的开源选项。从模型元数据中可以看出,对于每个 token 的推理,Mistral 8x7B 仅使用 2 个专家。

更让人感觉有趣的是,这是该公司官方账号自开通以来发布的第三条内容,两次重要发布均无文字说明,配图什么的更是不存在:

图片

9 月底的那条链接发布的是 Mistral 7B,该模型至今仍被称为「最好的 7B 模型」,在每个基准测试中都优于 Llama-2 13B,并且在代码、数学和推理方面优于 LLaMA-1 34B。

Mistral AI 成立于 2023 年 5 月,是一家法国人工智能初创公司,也是为数不多来自欧洲的大模型开源领域的明星团队。

Mistral AI 曾在 6 月获得了创纪录的 1.18 亿美元种子轮融资,还是在仅有 7 页 PPT 的情况下,据说这是欧洲历史上最大的种子轮融资。

图片Mistral AI 团队成员。

公司创始人之一 Arthur Mensch 曾在 10 月份向《金融时报》表示,Mistral AI 的技术比美国的一些强大竞争对手开发的技术更高效、成本更低。

技术实力的优越,也为这家公司带来了投资者的持续关注。

近日,《金融时报》报道了 Mistral AI 新一轮融资的动态:新一轮融资约 4 亿欧元,主要由股权组成,可能在下周官宣。目前,公司的最新估值在 20 亿欧元左右。

知情人士透露,新一轮融资由硅谷著名风投 Andreessen Horowitz 牵头,其他参与者还包括英伟达、Salesforce、General Catalyst、法国巴黎银行等。

Mistral AI 的其他投资者还包括谷歌前 CEO 埃里克・施密特 (Eric Schmidt)、法国电信亿万富翁泽维尔・尼尔 (Xavier Niel) 和法国国家支持的投资银行 Bpifrance。

这篇报道还提到,Arthur Mensch 表示「虽然公司尚未赚到任何钱,但预计这种情况将在年底前发生改变,因为该公司准备了一个新平台,供客户访问其人工智能模型。」

参考链接:https://www.ft.com/content/ea29ddf8-91cb-45e8-86a0-f501ab7ad9bb

相关资讯

小模型卷起来了:Mistral联合英伟达开源12B小模型,128k上下文

小模型,正在成为 AI 巨头的新战场。今天凌晨,OpenAI 突然发布了 GPT-4o 的迷你版本 ——GPT-4o mini。这个模型替代了原来的 GPT-3.5,作为免费模型在 ChatGPT 上提供。其 API 价格也非常美丽,每百万输入 token 仅为 15 美分,每百万输出 token 60 美分, 比之前的 SOTA 模型便宜一个数量级,比 OpenAI 此前最便宜的 GPT-3.5 Turbo 还要便宜 60% 以上。OpenAI CEO 山姆・奥特曼对此的形容是:通往智能的成本已经「too che

精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B

AI 竞赛正以前所未有的速度加速,继 Meta 昨天推出其新的开源 Llama 3.1 模型之后,法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚,Mistral AI 宣布其旗舰开源模型的下一代产品:Mistral Large 2,该模型拥有 1230 亿个参数,在代码生成、数学、推理等方面与 OpenAI 和 Meta 的最新尖端模型不相上下。紧随 Llama 3.1 405B 之后,Mistral Large 2 的发布让开源大模型的赛道一下子热闹起来,而这一模型的特点是 ——「足够大」。具体来

Mistral AI新模型对标GPT-4,不开源且与微软合作,网友:忘了初心

「欧洲版 OpenAI」的「最强开源大模型」,被微软收编了。生成式 AI 领域,又有重量级产品出现。周一晚间,Mistral AI 正式发布了「旗舰级」大模型 Mistral Large。与此前的一系列模型不同,这次 Mistral AI 发布的版本性能更强,体量更大,直接对标 OpenAI 的 GPT-4。而新模型的出现,也伴随着公司大方向的一次转型。随着 Mistral Large 上线,Mistral AI 推出了名为 Le Chat 的聊天助手(对标 ChatGPT),任何人都可以试试效果。试用链接:,Mi