英伟达竞品来了,训练比H100快70%,英特尔发最新AI加速卡

机能有优势,可扩大性也更好。英伟达的 AI 加速卡,现在有了旗鼓相当的对手。今天凌晨,英特尔在 Vision 2024 大会上展示了 Gaudi 3,这是其子公司 Habana Labs 的最新一代高机能人工智能加速器。Gaudi 3 将于 2024 年第三季度推出,英特尔现已开始向客户供应样品。凭借 1835 TFLOPS 的 FP8 计算吞吐量,英特尔相信它足以在广阔的(且昂贵的)AI 计算领域中分得一杯羹。根据内部基准测试,英特尔估计 Gaudi 3 机能部分超过了英伟达的 H100,并且具有更好的能耗比。在

机能有优势,可扩大性也更好。

英伟达的 AI 加速卡,现在有了旗鼓相当的对手。

今天凌晨,英特尔在 Vision 2024 大会上展示了 Gaudi 3,这是其子公司 Habana Labs 的最新一代高机能人工智能加速器。

英伟达竞品来了,训练比H100快70%,英特尔发最新AI加速卡

Gaudi 3 将于 2024 年第三季度推出,英特尔现已开始向客户供应样品。凭借 1835 TFLOPS 的 FP8 计算吞吐量,英特尔相信它足以在广阔的(且昂贵的)AI 计算领域中分得一杯羹。

根据内部基准测试,英特尔估计 Gaudi 3 机能部分超过了英伟达的 H100,并且具有更好的能耗比。在一些关键的大型语言模型中,Gaudi 3 能够击败英伟达的旗舰 H100/H200 Hopper 架构 GPU。

在当前这个科技领域抢购英伟达 GPU 的时刻,Gaudi 3 或许能为英特尔在 AI 加速器市场打开一扇门。

Gaudi 3 的发布也正值英特尔对其 AI 加速器产品的定位发生变化之际:当前,Gaudi 系列已升级为英特尔旗舰 AI 加速器。

英伟达竞品来了,训练比H100快70%,英特尔发最新AI加速卡

Gaudi 3 是 Gaudi 2 硬件的直接演变。Habana Labs 在这一代没有对架构进行大规模修改(这将在 Falcon Shores 中进行)。

上一代 Gaudi 2 加速器基于台积电 7nm 工艺打造,在 Gaudi 3 上 Habana 引入了更先进的 5nm 工艺。Gaudi 3 芯片又添加了适量的计算硬件,从 2 个矩阵数学引擎和 24 个张量核心扩大到 4 个矩阵数学引擎和 32 个张量核心。鉴于 Gaudi 3 的架构变化有限,我们或许可以假设这些张量核心仍然是 256 字节宽的 VLIW SIMD 单元。

英伟达竞品来了,训练比H100快70%,英特尔发最新AI加速卡

                               图片来自 Anandtech

Habana 团队罕见地公开了 Gaudi 3 芯片 FP8 精度的总吞吐量:1835 TFLOPS,这让 Gaudi 3 使用 8 位浮点计算产生的 AI 算力是 Gaudi 2 的两倍,BFloat 16 格式的算力提升则达到了四倍。

在大语言模型的实际处理上,英特尔预计用 Gaudi 3 训练 GPT-3 175B 大型语言模型的时间比 H100 要快 40%,Llama2 的 70 亿和 80 亿参数版本的训练结果甚至比这个数字还要好。

在推理方面,两者机能各有胜负,新芯片为两个版本的 Llama 供应了 H100 95% 至 170% 的机能。而对于 Falcon 180B 型号来说,Gaudi 3 却取得了四倍的优势。不出所料,与 Nvidia H200 相比,英特尔芯片的优势较小 ——Llama 为 80% 至 110%,Falcon 为 3.8 倍。

英特尔声称在测量能效时获得了更引人注目的结果,预计 H100 在 Llama 上的优势高达 220%,在 Falcon 上的数字则是 230%。

英伟达竞品来了,训练比H100快70%,英特尔发最新AI加速卡

虽然英特尔没有透露 Gaudi 3 芯片的晶体管总数,但新硬件的面积足够小,以至于英特尔能够将两个 die 封装到单个芯片上,从而使完整的 Gaudi 3 加速器成为双芯配置。与英伟达最近发布的 Blackwell 类似,两块相同的芯片被封装在一起,并通过高带宽链路衔接,以便为芯片供应统一的内存地址空间。

据英特尔称,组合后的芯片将像单个芯片一样工作,但英伟达没有透露衔接链路的任何重要细节。

英伟达竞品来了,训练比H100快70%,英特尔发最新AI加速卡

奇怪的是,与芯片匹配的是有点「过时」的 HBM2e 内存控制器,与 Gaudi 2 支持的内存类型相同。由于坚持使用 HBM2e,可用的最高容量堆栈为 16GB,为加速器供应了总共 128GB 的内存。其时钟频率为 3.7Gbps/pin,总内存带宽为 3.7TB / 秒。每块 Gaudi 3 芯片均供应 4 个 HBM2e PHY,使芯片总数达到 8 个内存堆栈。

英伟达竞品来了,训练比H100快70%,英特尔发最新AI加速卡

同时,每个 Gaudi 3 芯片都具有 48MB 板载 SRAM,为整个芯片供应 96MB SRAM。英特尔称,SRAM 总带宽为 12.8TB / 秒。英特尔没有透露 Gaudi 3 加速器的时钟速度。鉴于现有硬件数量增加了一倍多,这里或许会考虑整体较低的时钟速度。

在这一点上,基本风冷式 Gaudi 3 加速器的 TDP 为 900 瓦,比其前身的 600 瓦限制高出 50%。英特尔在这里使用 OAM 2.0 外形尺寸,它供应比 OAM 1.x (700W) 更高的功率限制。不过,英特尔还在开发并验证 Gaudi 3 的液冷版本,它将供应更高的机能,以换取更高的 TDP。所有形式的 Gaudi 3 都将使用 PCIe 衔接其主机 CPU。

网络衔接

除了 Gaudi 3 的核心架构之外,Habana 对 Gaudi 3 的另一项重大技术升级是在 I/O 方面。回到 Gaudi 的早期,Habana 的芯片就依赖于全以太网架构,使用以太网进行节点内芯片到芯片衔接和横向扩大节点到节点衔接。它本质上与英伟达所做的相反 —— 是将以太网扩大到芯片级别,而不是将 NVLink 扩大到机架级别。

上一代的 Gaudi 2 每块芯片供应 24 个 100Gb 以太网链路,Gaudi 3 将这些链路的带宽增加了一倍,达到 200Gb / 秒,使芯片的外部以太网 I/O 总带宽达到 8.4TB / 秒。

英伟达竞品来了,训练比H100快70%,英特尔发最新AI加速卡

与此同时,每块芯片的剩余 3 个链路将用于为六组 800Gb 八路小型可插拔 (OSFP) 以太网链路供应信号。通过使用重定时器,端口将被分成两个块,然后在 5 个加速器上进行平衡。

最终,英特尔希望提升 Gaudi 3 的可扩大性。由于先进大语言模型需要将许多节点链接在一起形成一个集群,以供应训练所需的内存和计算机能,一直以来,英特尔都希望通过采用纯以太网配置来赢得那些不想投资 InfiniBand 等专有 / 替代互连技术的客户。

英伟达竞品来了,训练比H100快70%,英特尔发最新AI加速卡

英特尔已经开发了多达 512 个节点的网络拓扑,使用 48 个主干交换机衔接多达 32 个集群,每个集群包含 16 个节点。据英特尔称,Gaudi 3 还可以进一步扩大,达到数千个节点。

机能对比

英特尔表示,与目前业内先进的 AI 加速器英伟达 H100 相比,Gaudi 3 在 16 个加速器集群中以 FP8 精度训练 Llama2-13B 时,机能比 H100 快 70%。尽管 H100 已经问世 2 年,但如果 Gaudi 3 成功的话,在任何训练方面都大幅击败 H100 对于英特尔来说将是一个巨大的胜利。

英伟达竞品来了,训练比H100快70%,英特尔发最新AI加速卡

英伟达竞品来了,训练比H100快70%,英特尔发最新AI加速卡

与此同时,英特尔预计采用 Gaudi 3 的 H200/H100 的推理机能将提高 1.3 倍至 1.5 倍,也许最值得注意的是,功耗比将提高多至 2.3 倍。

当然,在这些推理工作负载中,英特尔有时仍然会输给 H100,尤其是那些没有 2K 输出的工作负载,因此 Gaudi 3 还远未横扫一切。

不过值得赞扬的是,英特尔是迄今为止唯一一家供应 MLPerf 结果的主要硬件制造商。因此,无论 Gaudi 3 的表现如何(以及 Gaudi 2 目前的表现),他们在发布行业标准测试结果方面比大多数人都光明正大得多。

样品第二季度出货

总而言之,英特尔将在下个季度发布首款 Gaudi 3 产品。该公司已经在其实验室中拥有风冷版本的 OEAM 加速器以进行资格认证,并向客户供应样品,同时液冷版本将于本季度供应样品。

英伟达竞品来了,训练比H100快70%,英特尔发最新AI加速卡

最后,对于 Gaudi 团队来说,英特尔还将首次供应采用更传统 PCIe 外形规格的 Gaudi 3 版本。HL-338 卡是一款 10.5 英寸全高双槽 PCIe 卡。它供应与 OAM Gaudi 3 相同的所有硬件,甚至可达到 1835 TFLOPS FP8 的峰值机能。然而,它将配备对 PCIe 插槽更友好的 600 瓦 TDP,比 OAM 卡低 300 瓦,因此持续机能应该会明显降低。

英伟达竞品来了,训练比H100快70%,英特尔发最新AI加速卡

尽管英特尔 Keynote 中未有展示,但 PCIe 卡供应了两个 400Gb 以太网端口,用于横向扩大配置。与此同时,英特尔将为 PCIe 卡供应一个「顶板」,类似于英伟达的 NVLink 桥,可以衔接最多 4 个 PCIe 卡以进行卡间通信。OAM 外形尺寸仍将是实现每个加速器最高机能和最大化横向扩大潜力的途径,但对于需要在传统 PCIe 插槽中即插即用的客户来说,现在也有了一个选择。

PCIe 版本的 Gaudi 3 将于今年第四季度推出,同时推出液冷版本的 OAM 模块。

参考内容:

https://www.intel.com/content/www/us/en/newsroom/news/vision-2024-keynote-livestream-replay.html#gs.7pzjdw

https://spectrum.ieee.org/intel-gaudi-3

https://www.anandtech.com/show/21342/intel-introduces-gaudi-3-accelerator-going-bigger-and-aiming-higher

给TA打赏
共{{data.count}}人
人已打赏
应用

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

2024-4-10 14:31:00

应用

Mistral开源8X22B大模型,OpenAI更新GPT-4 Turbo视觉,都在欺负google

2024-4-10 14:43:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索