端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

Meta 推出 MobileLLM 系列,一款适用于挪动设备上的「小」模型。「在挪动设备上运行 LLM?可能需要 Meta 的一些技巧。」刚刚,图灵奖得主 Yann LeCun 在个人社交平台表示。他所宣传的这项研讨来自 Meta 最新论文《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases 》,在众多作者中也有我们熟悉的来自 Meta FAIR 田渊栋。田渊栋表示:「我们的 MobileLLM 预

Meta 推出 MobileLLM 系列,一款适用于挪动设备上的「小」模型。

「在挪动设备上运行 LLM?可能需要 Meta 的一些技巧。」刚刚,图灵奖得主 Yann LeCun 在个人社交平台表示。

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

他所宣传的这项研讨来自 Meta 最新论文《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases 》,在众多作者中也有我们熟悉的来自 Meta FAIR 田渊栋。

田渊栋表示:「我们的 MobileLLM 预训练模型(125M/350M),性能达到 SoTA,特别是在谈天 / API 挪用方面表现出色。此外,本工作中的一个有趣研讨是跨 Transformer 层的权重同享,这样不仅节省了参数,还减少了推理过程中的延迟。」

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

论文地址:https://arxiv.org/pdf/2402.14905.pdf

现阶段大语言模型(LLM)已经渗透到人类生活的各个方面,尤其是以 ChatGPT 等为代表的模型,这类研讨主要在云环境中运行。

然而领先的模型如 ChatGPT4 的参数量已经超过了 1 万亿。我们设想这样一个场景,这个场景广泛依赖 LLM,不仅用于前端的会话界面,也用于后端操作,如推荐系统,覆盖人类约 5% 的时间。在这一假设场景中,假如以 GPT-4 每秒处理 50 个 token 的速率来计算,则需要部署大约一亿个 H100 GPU,每个 GPU 的计算能力为 60 TFLOPs/s。这种计算领域,还不包括通信和数据传输的开销,就已经与 160 个 Meta 领域的公司相当。随之而来的能源消耗和二氧化碳排放将带来巨大的环境挑战。

因此,最好的解决方案是缩小 LLM 的领域。

此外,在当前的挪动技术领域,由于主内存(DRAM)容量的限制,将像 LLaMAv2 7B 这样的 LLM 与 8 位权重整合起来代价过高。挪动设备中普遍的内存层结构如图 2 所示。随着 DRAM 容量从 iPhone 15 的 6GB 到 Google Pixel 8 Pro 的 12GB 不等,一个挪动应用不应超过 DRAM 的 10%,因为 DRAM 需要与操作系统和其他应用程序同享。这一要求促进了部署小于十亿参数 LLM 更进一步的研讨。

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

基于上述考量,来自 Meta 的研讨者专注于设计参数少于十亿的高质量 LLM,这是在挪动端部署 LLM 比较好的解决方案。

与强调数据和参数数量在决定模型质量方面的关键作用的普遍观点相反,Meta 强调了模型架构对少于十亿(sub-billion)领域 LLM 的重要性。

基于深而窄的架构,加上嵌入同享和分组查询注意力机制,Meta 建立了一个强大的基线网络,称为 MobileLLM,与之前的 125M/350M 最先进模型相比,其准确率显著提高了 2.7%/4.3% 。这也说明了与缩放定律(scaling law)相反,该研讨证明对于小型 LLM 来说深度比宽度更重要,一个深而窄的模型结构在捕获抽象概念方面更为出色。

此外,Meta 还提出了一种及时逐块权重同享( immediate block-wise weight sharing)方式,该方式不会增加模型大小,所得模型表示为 MobileLLM-LS,其准确率比 MobileLLM 125M/350M 进一步提高了 0.7%/0.8%。此外,在下游义务中,例如 Chat 和 API 挪用,MobileLLM 模型家族显著优于同等领域的模型。在 API 挪用义务中,与领域较大的 LLaMA-v2 7B 相比,MobileLLM 甚至实现了相媲美的分数。

看到这项研讨后,网友纷纷表示「我们应该向 Meta 致敬,很高兴看到这个领域的活跃玩家。该机构通过使用低于 10 亿参数的模型,并且 350M 8 位模型的能源消耗仅为 0.035 J/token  ,要是部署在 iPhone 上的话,可以支持用户一整天的会话使用。」

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

改进十亿以下参数领域的 LLM 设计

研讨者介绍了从十亿以下参数领域的基线模型到新的 SOTA 模型的演进之路(以下图 3 所示)。他们分别研讨了 125M 和 350M 参数领域的模型,并在这两个领域下展示了一致的改进。对于模型尺寸成为主要制约因素的设备用例而言,如何有效地分配有限的权重参数变得比以往更加重要。

研讨者首先通过测试四种有益于十亿以下领域 LLM 的模型设计方式,提出了一个名为MobileLLM 的强大基线模型。这四种模型设计方式包括 1)采用 SwiGLU FFN,2)强制使用深和薄的架构,3)重新审视嵌入同享方式,4)利用分组查询注意力。

接下来,研讨者开发了一种直接的逐块层同享方式,基于该方式可以进一步提高准确度,而不产生任何额外的内存开销,并在内存有限的 LM 解码过程中产生很小的延迟开销。他们将具有层同享的模型表示为 MobileLLM-LS。

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

训练设置

研讨者在 32 个 A100 GPU 上进行尝试,其中每个 GPU 的批大小为 32。他们在 0.25T 的 tokens 上执行了 120k 次迭代的探索性尝试。下文中表 3 和表 4 报告了在 1T 的 tokens 上执行 480k 次迭代训练的 top 模型。

层同享

关于层深度与宽度影响的研讨结果表明,更深的层有利于小型 transformer 模型。这促使本文研讨层同享作为增加隐藏层数量而不增加存储成本的计谋。这种方式在模型大小成为主要制约因素的场景中尤其有用。

令人惊讶的是,尝试结果表明,通过简单地复制 transformer 块就可以提高准确度而无需任何架构修改或扩大模型尺寸。研讨者进一步探究三种不同的权重同享计谋,具体以下图 6 所示。

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

下表 2 结果表明,重复层同享计谋在立即块重复、全面重复(repeat all-over)和反向同享计谋中产生了最佳性能。

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

不过,考虑到硬件内存的层级结构(如图 2),用于计算的 SRAM 通常限制在了 20M 左右。该容量通常仅够容纳单个 transformer 块。因此,将同享权重放入缓存中并立即计算两次则无需在 SRAM 和 DRAM 之间传输权重,提高了自回归推理的整体执行速度。

研讨者在模型设计中选择了直接的分块同享计谋,并将提出的带有层同享的模型表示为 MobileLLM-LS。

尝试结果

该研讨进行尝试比较了模型在零样本(zero-shot)常识推理义务、问答和阅读理解义务上的性能。

零样本常识推理义务的尝试结果以下表 3 所示:

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

在问答和阅读理解义务上,该研讨采用 TQA 问答基准和 RACE 阅读理解基准来评估预训练模型,尝试结果以下表 4 所示:

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

为了验证将模型用于设备上应用程序的有效性,该研讨评估了模型在两个关键义务上的性能:谈天和 API 挪用。

针对谈天义务,该研讨在两个基准上进行了评估尝试:AlpacaEval(单轮谈天基准)和 MT-Bench(多轮谈天基准),尝试结果以下表 5 所示:

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

在 API 挪用方面,以下表 6 所示,MobileLLM-350M 表现出与 LLaMA-v2 7B 相当的 EM_intent 和 EM_structure,其中 EM_intent 越高,表明模型对用户计划挪用 API 的预测就越准确,而 EM_structure 反映了预测 API 函数内内容的熟练程度。

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

该研讨进一步在 MobileLLM 和 MobileLLM-LS 模型上针对每个 token 进行最小 / 最大训练后量化 (PTQ) 尝试,模型大小分别为 125M 和 350M,在 0.25T token 上进行训练,尝试结果以下图 7 所示:

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

模型加载、初始化和执行时间以下表 7 所示:

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

更多技术细节请参阅原论文。

给TA打赏
共{{data.count}}人
人已打赏
应用

google10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

2024-2-27 14:55:00

应用

讲个鬼故事:这台机器人终于“强”成了我要的模样

2024-2-27 16:04:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索