编辑 | 白菜叶
AMD 在近日的 AMD Advancing AI 活动中揭开了其下一代 AI 加速器芯片 Instinct MI300 的面纱,这是前所未有的 3D 集成壮举。MI300 将为 El Capitan 超等估计机提供动力,它是一个集估计、内存和通信于一体的夹层蛋糕,有三片硅片高,可以在这些硅平面之间垂直传输多达 17 TB 的数据。它可以使某些机器学习关键估计的速度提高 3.4 倍。该芯片与 Nvidia 的 Grace-Hopper 超等芯片和英特尔的超等估计机加速器 Ponte Vecchio 等竞品既有不同又有相似之处。
MI300a 在四个输入输出芯片 (IOD) 之上重叠了三个 CPU 小芯片(用 AMD 的行话称为估计复杂芯片或 CCD)和六个加速器小芯片 (XCD),一切这些都位于一块硅片之上,硅片将它们毗邻到围绕超等芯片的八个高带宽 DRAM 客栈。(MI300x 将 CCD 替换为另外两个 XCD,构成仅加速器体系。)随着硅平面上晶体管尺寸缩小的速度放缓,3D 重叠被视为将更多晶体管放入同一区域并继续推动摩尔定律向前发展的关键方法。
图:估计和 AI 小芯片重叠在 MI300a 中的 I/O 和缓存小芯片之上。(来源:AMD)
「这是一个真正令人惊叹的硅重叠,可提供业界目前已知如何生产的最高密度性能。」AMD 高级副总裁兼企业研究员 Sam Naffziger 说道。该集成是利用两种台积电手艺完成的:SoIC(集成芯片体系)和 CoWoS(基板上晶圆芯片)。后者利用所谓的混合键合将较小的芯片重叠在较大的芯片之上,这种混合键合直接毗邻每个芯片上的铜焊盘,无需焊接。它用于生产 AMD 的 V-Cache,这是一种重叠在其最高端 CPU 小芯片上的高速缓存内存扩展小芯片。前者称为 CoWos,将小芯片重叠在称为中介层的较大硅片上,该硅片旨在包含高密度互连。
AMD 和 Nvidia 之间的异同
与主要竞争对手英伟达的做法既有相似之处,也有不同之处。正如 Nvidia 在其 Hopper 架构中所做的那样,AMD 的加速器架构 CDNA3 增加了利用称为 TF32 的截断 32 位数字和两种不同形式的 8 位浮点数的估计能力。后一个属性用于加速 transformer 神经网络某些部分的训练,例如大型语言模型。它们还都包含一种减小神经网络大小的方案,称为 4:2 稀疏性。
另一个相似之处是 CPU 和 GPU 都包含在同一个封装中。在许多人工智能估计机体系中,GPU 和 CPU 是单独封装的芯片,以 4 比 1 的比例部署。将它们集成在单个超等芯片中的一个优点是,CPU 和 GPU 都可以高带宽访问相同的缓存和高带宽 DRAM (HBM),并且在读写数据时不会互相干扰。
Nvidia 的 Grace-Hopper 就是这样一个超等芯片组合,通过 Nvidia 的 Nvidia NVLink Chip-2-Chip 互连将 Grace CPU 与 Hopper GPU 毗邻起来。AMD 的 MI300a 也是如此,通过利用 AMD Infinity Fabric 互连手艺集成了专为其 Genoa 系列设想的三个 CPU 芯片和六个 XCD 加速器。
但粗略地看一下 Grace Hopper 和 MI300,就会发现一些深刻的差异。Grace 和 Hopper 都是独立的芯片,集成了片上体系所需的一切功用块(估计、I/O 和缓存)。它们是水平毗邻的,而且很大——几乎达到了光刻手艺的尺寸极限。
AMD 采取了不同的方法,它在几代 CPU 中都采用了这种方法,竞争对手英特尔在其 3D 客栈超等估计机加速器 Ponte Vecchio 中也采用了这种方法。这个概念被称为体系手艺协同优化(STCO)。这意味着,设想人员首先将芯片分解为其功用,然后决定哪些功用需要哪种制造手艺。
「我们想要利用 MI300 进行扩展,超越单个单片 GPU 的能力。因此,我们将其解构为碎片,然后将其重新构建起来,」Instinct 的高级研究员兼首席架构师 Alan Smith 说道。尽管已经在多代 CPU 中这样做,但 MI300 是该公司首次制造 GPU 小芯片并将它们绑定在单个体系中。
「将 GPU 分解为小芯片使我们能够将估计置于最先进的工艺节点中,同时将芯片的其余部分保留在更适合缓存和 I/O 的手艺中。」他说。就 MI300 而言,一切估计都是利用台积电的 N5 工艺构建的,这是最先进的工艺,用于 Nvidia 的顶级 GPU。I/O 功用和体系缓存都无法从 N5 中受益,因此 AMD 为此选择了一种较便宜的手艺 (N6)。因此,这两个功用可以一起构建在同一个小芯片上。
随着功用的分解,MI300 中涉及的一切硅片都变得很小。最大的 I/O 芯片甚至还不到 Hopper 的一半大小。而且 CCD 的尺寸仅为 I/O 芯片的 1/5 左右。小尺寸带来很大差异。一般来说,芯片越小产量越好。也就是说,单个晶圆将提供比大芯片更高比例的工作小芯片。「3D 集成不是免费的。」Naffziger 说。但他表示,更高的产量抵消了成本。
Luck and experience
Naffziger 表示,该设想涉及对现有手艺和设想的巧妙重用、一些妥协以及一点运气。重用有两种情况。
首先,AMD 能够充满信心地进行 3D 集成,因为它已在其 V 缓存产品中利用了完全相同的垂直互连间距(9 微米)。作为 AMD 能够收取额外费用的可选附加组件,V-cache 很少有良率不佳或其他问题对公司产生重大影响的风险。「这让我们能够在不危及主要产品线的情况下解决制造问题和 3D 重叠的一切设想复杂性,这是一件很棒的事情,」Naffziger 说道。
另一个重用的例子就有点冒险了。当 MI300 团队决定需要 CPU/GPU 组合时,Naffziger 「有些不好意思」地询问为 Genoa CPU 设想 Zen4 CCD 的团队负责人,是否可以制作出适合 MI300 需求的 CCD。
该团队面临着比预期更早完成任务的压力,但一天后他们做出了回应。Naffziger 很幸运;Zen4 CCD 在正确的位置有一个小的空白空间,可以在不破坏整体设想的情况下与 MI300 I/O 芯片及其相关电路进行垂直毗邻。
尽管如此,仍然有一些几何问题需要解决。为了使一切内部通信正常工作,四个 I/O 小芯片必须在特定边缘上相互面对。这意味着制作小芯片的镜像版本。由于它是与 I/O 小芯片共同设想的,因此 XCD 的垂直毗邻旨在与两个版本的 I/O 毗邻。但 CCD 没有受到任何干扰,他们很幸运能够拥有 CCD。因此,I/O 被设想为具有冗余毗邻,这样无论它位于哪个版本的小芯片上,CCD 都会毗邻。
图示:为了让一切都对齐,IOD 小芯片需要制作为彼此的镜像,并且加速器 (XCD) 和估计 (CCD) 小芯片必须旋转。(来源:AMD)
Naffziger 指出,电网必须向客栈顶部的估计芯片提供数百安培的电流,也面临着类似的挑战,因为它也必须适应一切不同的小芯片方向。
相关报道:https://spectrum.ieee.org/amd-mi300