Meta 构建分布式 RoCEv2 网络:探索串联数万片 GPU,训练千亿参数级 AI 模型

Meta 公司于 8 月 5 日发布博文,表示为了满足大规模分布式 AI 训练对网络的需求,构建了基于 RoCEv2 协议的大规模 AI 网络。RoCEv2 的全称是 RDMA Over Converged Ethernet version 2,是一种节点间通信传输方式,用于大部分人工智能容量。Meta 公司已成功扩展了 RoCE 网络,从原型发展到部署了众多集群,每个集群可容纳数千个 GPU。这些 RoCE 集群支持广泛的生产型分布式 GPU 训练工作,包括排名、内容推荐、内容理解、自然语言处理和 GenAI 模

Meta 公司于 8 月 5 日发布博文,表示为了满足大规模分布式 AI 训练对网络的需求,构建了基于 RoCEv2 协议的大规模 AI 网络

RoCEv2 的全称是 RDMA Over Converged Ethernet version 2,是一种节点间通信传输方式,用于大部分人工智能容量。

Meta 公司已成功扩展了 RoCE 网络,从原型发展到部署了众多集群,每个集群可容纳数千个 GPU。

这些 RoCE 集群支持广泛的生产型分布式 GPU 训练工作,包括排名、内容推荐、内容理解、自然语言处理和 GenAI 模型训练等工作负载。

Meta 公司为分布式 AI 训练专门建立了一个专用的后端网络,能够独立于数据中心网络的其他部分进行发展、运行和扩展。

训练集群依赖于两个独立的网络:前端(FE)网络用于数据摄取、检查点和日志记录等任务,后端(BE)网络用于训练,如下图所示:

Meta 构建分布式 RoCEv2 网络:探索串联数万片 GPU,训练千亿参数级 AI 模型

训练机架连接到数据中心网络的 FE 和 BE。FE 的网络层次包括机架交换机 (RSW)、结构交换机(FSW)等,其中包含存储仓库,为 GPU 提供训练工作负载所需的输入数据。

Meta 构建分布式 RoCEv2 网络:探索串联数万片 GPU,训练千亿参数级 AI 模型

后端结构是一个专门的结构,它以无阻塞的架构连接所有 RDMA 网卡,无论它们的物理位置如何,在集群中的任意两个 GPU 之间提供高带宽、低延迟和无损传输。

Meta 构建分布式 RoCEv2 网络:探索串联数万片 GPU,训练千亿参数级 AI 模型

Meta 构建分布式 RoCEv2 网络:探索串联数万片 GPU,训练千亿参数级 AI 模型

为了应对 LLM 模型训练对 GPU 规模的需求,Meta 设计了聚合训练交换机(ATSW)层,将多个 AI 区域互连起来。此外,Meta 还优化路由、拥塞控制等方面,以提升网络性能。

AI在线附上参考地址

RDMA over Ethernet for Distributed AI Training at Meta Scale

ACM SIGCOMM 2024 大会

RoCE networks for distributed AI training at scale

相关资讯

神经网络debug太难了,这里有六个实用技巧

神经网络的 debug 过程着实不容易,这里是一些有所帮助的 tips。

李玟母亲声明:AI 侵权内容 7 日内必须下架,维护逝者尊严

3 月 28 日,已故知名歌手李玟的母亲委托广东梦海律师事务所就部分网络用户制作、传播“AI 复活李玟”相关短视频事宜,公开发布了一则律师声明。该声明称,根据已掌握的证据资料显示,近期部分网络用户未经李玟女士近亲属同意,利用李玟肖像制作、发布“AI 复活李玟”系列短视频,以温情之名非法牟利,借机售卖 AI 服务、恶意转评引流推广个人业务。此类视频的广泛传播已经对李玟母亲及其家人的工作和生活造成了严重干扰,同时也给本就深陷痛苦的李玟母亲及家人带来了巨大的心理冲击和二次伤害。IT之家附声明主要内容:严正警告涉嫌侵权责任

华为发布星河 AI 电力网络,覆盖“发、输、变、配、调”等场景

8 月 15 日,2024 电力信息通信新技术大会在北京召开。会上,华为数据通信产品线能源行业解决方案总监杨新峰发表“华为星河 AI 电力网络,构筑电力智能化发展的通信基座”主题演讲,发布华为星河 AI 电力网络。据杨新峰介绍,华为星河 AI 电力网络解决方案包含 7 大子方案,覆盖“发、输、变、配、调”等电力场景,AI在线汇总信息如下:1、星河 AI 数据中心网络:NSLB 算法实现全网负载均衡,网络吞吐量提升至 95%。独家 iReliable 三级极速切换。网络数字地图打造超智运维,故障分钟级定位。2、智能