Creator 面对面 | 北大河图在稀薄大模型训练架构上的几点探索

河图是北京大学数据与智能实验室自研的一款分布式深度学习框架,兼顾创新性和可用性,这也是国内首个由高校自主研发的分布式深度学习系统。底层的算子实现到上层的模型设计完全是由河图团队自主实现。

2022 年 1 月,北京大学数据与智能实验室河图团队负责人苗旭鹏博士做客机器之心「2021-2022 年度 AI 技术趋势洞察」的「工程专场」直播间时,为我们带来了主题为「北大河图在稀薄大模型训练架构上的几点探索」的有关报告。

Creator 面对面 | 北大河图在稀薄大模型训练架构上的几点探索

苗旭鹏博士的分享围绕稀薄大模型训练架构展开,主要从稀薄大模型的有关后台、河图有关研究来展开介绍。

Embedding 模型有关后台

首先苗旭鹏博士向我们介绍了稀薄大模型的有关后台。在过去的这几年,Embedding 模型已经成为了对于高维数据的一种有效的学习范式。例如,在语言模型傍边,一条训练样本往往包含若干个单词,它们可以映照到一个统一的词表傍边,将表中的索引映照到一个低维向量举行表达,也就是对词的一个分布式表示。近几年,模型范围不断变大,Embedding 模型其实也不例外。实际上,如果稀薄模型真的要扩展到如此巨大的范围,仍然面临着非常严峻的挑战。

Creator 面对面 | 北大河图在稀薄大模型训练架构上的几点探索

稀薄大模型训练面临挑战

接下来苗博士跟我们分享了有关河图的有关研究论文,该论文发表在 VLDB 2022 上的一篇工作:HET: Scaling out Huge Embedding Model Training via Cache-enabled Distributed Framework。稀薄大模型的模型范围对比大,它的一个特殊之处在于可能 99% 的模型参数都会来自于 Embedding 层,也就是 Embedding Table。对于一个万亿范围的稀薄大模型,它的参数量仅仅模型参数就需要占据 3.7 TB 这样的一个存储空间,显然是无法在单机举行训练的。在过去的这几年,工业界一直努力在这个方向上举行探索,但大多数都还是鉴于选拔结合现有的深度学习系统和高度工程优化的参数服务器的这种方案,希望能够把这个硬件的性能利用到极致。而事实上由于我们的网络带宽其实都是有限的,这些方案并没有从根本上去解决这个稀薄大模型训练的问题。

Creator 面对面 | 北大河图在稀薄大模型训练架构上的几点探索

河图研究鉴于两点观察:Skewness、Robustness

HET 在尝试解决稀薄大模型训练架构上的问题时,主要是鉴于两点观察。第一点是 Skewness 。可以注意到很多真实的稀薄大模型,它的输入数据的特征分布往往具有倾斜分布的本质。举例来说,比如最常用的公开推荐数据集 Criteo 上面前 10% 的高频 Embedding 。经过统计,它已经占据整个数据集傍边 90% 的 Embedding 通讯。鉴于这种本质启发了苗博士团队在 HET 傍边对这些不均衡的 Embedding 分布去举行设计和讨论。第二个点是 Robustness。它并不是只针对稀薄大模型,是机器学习本身的一个本质。

Creator 面对面 | 北大河图在稀薄大模型训练架构上的几点探索

由于稀薄大模型具有稀薄模型参数以及稠密模型参数两部分,它们具有天然不同的造访本质,所以总体上还是选拔一种混合的通讯架构。对于稠密的参数,选拔 GPU 间性能对比高的 Allreduce 的方式举行同步。对于稀薄的 Embedding 参数,选拔类似参数服务器的架构,并在参数服务器的架构上举行一个改变。

Creator 面对面 | 北大河图在稀薄大模型训练架构上的几点探索

选拔 Cache Embedding Table 来缓存这些高频造访的 Embedding 参数

对比不一样的是, HET Client 在这里设计了一个 Cache Embedding Table 这样的一个概念。这个 Embedding 缓存是整个设计方案的一个核心。具体来说选拔 Cache Embedding Table 来缓存这些高频造访的 Embedding 参数。同时,为了保证模型的收敛性,苗博士团队提出了一种细粒度鉴于 Emending Clock 的有限异步协议来解决如何在不同的节点傍边去同步这些 Embedding 正本,既允许读取一些对比旧的 Embedding 同时也允许迟延写回缓存上的梯度更新。在这个结构基础上去引入一个对比重要的  Lamport Clock ,用来记录 Embedding 向量的状态。在训练过程中,通过对比 Embedding 的时钟就可以知道这个正本的迟延或者超前的程度。

Creator 面对面 | 北大河图在稀薄大模型训练架构上的几点探索

最后苗博士向我们展示了 HET 的有关实验数据。实验结果发现 HET 能够减少超过 88% 的 Embedding 通讯。在整体的 End to End 的训练时间上,可以实现 20 倍以上的加速。

Creator 面对面 | 北大河图在稀薄大模型训练架构上的几点探索

Creator 面对面 | 北大河图在稀薄大模型训练架构上的几点探索

给TA打赏
共{{data.count}}人
人已打赏
AI

库克、盖茨等500余人联名倡议:让每一个中小先生都能学计算机课程

2022-7-13 14:36:00

AI

为主动驾驭汽车创造「影象」,上交校友、康奈尔大学博士生两篇论文被CVPR 2022收录

2022-7-14 16:38:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索