初创公司 Databricks 近日发布公告,推出了开源 AI 模型 DBRX,声称是迄今为止全球最强大的开源大型说话模型,比 Meta 的 Llama 2 更为强大。
DBRX 采用 transformer 架构,包含 1320 亿参数,共 16 个专家网络组成,每次推理使用其中的 4 个专家网络,激活 360 亿参数。
Databricks 在公司博客文章中介绍,在说话理解、编程、数学和逻辑方面,对比 Meta 公司的 Llama 2-70B、法国 Mistral AI 公司的 Mixtral 以及马斯克旗下 xAI 开发的 Grok-1 等主流开源模型,DBRX 均优势胜出。
图 1:DBRX 在说话理解 (MMLU)、编程 (HumanEval) 和数学 (GSM8K) 方面的表现优于已有的开源模型。
在说话理解方面,DBRX 的分值为 73.7%,高于 GPT-3.5 的 70.0%、高于 Llama 2-70B 的 69.8%、Mixtral 的 71.4% 以及 Grok-1 的 73.0%。
模型
DBRX Instruct
Mixtral Instruct
Mixtral Base
LLaMA2-70B Chat
LLaMA2-70B Base
Grok-11
Open LLM Leaderboard2
(Avg of next 6 rows)
74.5%
72.7%
68.4%
62.4%
67.9%
—
ARC-challenge 25-shot
68.9%
70.1%
66.4%
64.6%
67.3%
—
HellaSwag 10-shot
89.0%
87.6%
86.5%
85.9%
87.3%
—
MMLU 5-shot
73.7%
71.4%
71.9%
63.9%
69.8%
73.0%
Truthful QA 0-shot
66.9%
65.0%
46.8%
52.8%
44.9%
—
WinoGrande 5-shot
81.8%
81.1%
81.7%
80.5%
83.7%
—
GSM8k CoT 5-shot maj@13
66.9%
61.1%
57.6%
26.7%
54.1%
62.9% (8-shot)
Gauntlet v0.34
(Avg of 30+ diverse tasks)
66.8%
60.7%
56.8%
52.8%
56.4%
—
HumanEval5
0-Shot, pass@1
(Programming)
70.1%
54.8%
40.2%
32.2%
31.0%
63.2%
在编程能力方面,DBRX 的得分为 70.1%,远超 GPT-3.5 的 48.1%,高于 Llama 2-70B 的 32.3%、Mixtral 的 54.8% 以及 Grok-1 的 63.2%。
Model
DBRXInstruct
GPT-3.57
GPT-48
Claude 3 Haiku
Claude 3 Sonnet
Claude 3 Opus
Gemini 1.0 Pro
Gemini 1.5 Pro
Mistral Medium
Mistral Large
MT Bench (Inflection corrected, n=5)
8.39 ± 0.08
—
—
8.41 ± 0.04
8.54 ± 0.09
9.03 ± 0.06
8.23 ± 0.08
—
8.05 ± 0.12
8.90 ± 0.06
MMLU 5-shot
73.7%
70.0%
86.4%
75.2%
79.0%
86.8%
71.8%
81.9%
75.3%
81.2%
HellaSwag 10-shot
89.0%
85.5%
95.3%
85.9%
89.0%
95.4%
84.7%
92.5%
88.0%
89.2%
HumanEval 0-Shotpass@1(Programming)
70.1%
temp=0, N=1
48.1%
67.0%
75.9%
73.0%
84.9%
67.7%
71.9%
38.4%
45.1%
GSM8k CoT maj@1
72.8% (5-shot)
57.1% (5-shot)
92.0% (5-shot)
88.9%
92.3%
95.0%
86.5%
(maj1@32)
91.7% (11-shot)
66.7% (5-shot)
81.0% (5-shot)
WinoGrande 5-shot
81.8%
81.6%
87.5%
—
—
—
—
—
88.0%
86.7%
在数学方面,DBRX 的得分为 66.9%,高于 GPT-3.5 的 57.1%,也高于 Llama 2-70B 的 54.1%、Mixtral 的 61.1% 和 Grok-1 的 62.9%。
Databricks 介绍,DBRX 是一个基于 MegaBlocks 研究和开源项目构建的混合专家模型 (MoE),因此每秒输出 token 的速度极快。Databricks 相信,这将为 MoE 未来最先进的开源模型铺平道路。
IT之家附上参考地址
Introducing DBRX: A New State-of-the-Art Open LLM
dbrx-base
databricks / dbrx