编辑 | 白菜叶
AMD 在近日的 AMD Advancing AI 活动中揭开了其下一代 AI 加速器芯片 Instinct MI300 的面纱,这是前所未有的 3D 集成壮举。MI300 将为 El Capitan 超级计算机提供动力,它是一个集计算、内存和通信于一体的夹层蛋糕,有三片硅片高,可以在这些硅平面之间垂直传输多达 17 TB 的数据。它可以使某些机器学习关键计算的速度提高 3.4 倍。该芯片与 Nvidia 的 Grace-Hopper 超级芯片和英特尔的超级计算机加速器 Ponte Vecchio 等竞品既有不同又有相似之处。
MI300a 在四个输入输出芯片 (IOD) 之上堆叠了三个 CPU 小芯片(用 AMD 的行话称为计算复杂芯片或 CCD)和六个加速器小芯片 (XCD),所有这些都位于一块硅片之上,硅片将它们连接到围绕超级芯片的八个高带宽 DRAM 堆栈。(MI300x 将 CCD 替换为另外两个 XCD,构成仅加速器系统。)随着硅平面上晶体管尺寸缩小的速度放缓,3D 堆叠被视为将更多晶体管放入同一区域并继续推动摩尔定律向前发展的关键方法。
图:计算和 AI 小芯片堆叠在 MI300a 中的 I/O 和缓存小芯片之上。(来源:AMD)
「这是一个真正令人惊叹的硅堆叠,可提供业界目前已知如何生产的最高密度性能。」AMD 高级副总裁兼企业研究员 Sam Naffziger 说道。该集成是使用两种台积电技术完成的:SoIC(集成芯片系统)和 CoWoS(基板上晶圆芯片)。后者使用所谓的混合键合将较小的芯片堆叠在较大的芯片之上,这种混合键合直接连接每个芯片上的铜焊盘,无需焊接。它用于生产 AMD 的 V-Cache,这是一种堆叠在其最高端 CPU 小芯片上的高速缓存内存扩展小芯片。前者称为 CoWos,将小芯片堆叠在称为中介层的较大硅片上,该硅片旨在包含高密度互连。
AMD 和 Nvidia 之间的异同
与主要竞争对手英伟达的做法既有相似之处,也有不同之处。正如 Nvidia 在其 Hopper 架构中所做的那样,AMD 的加速器架构 CDNA3 增加了使用称为 TF32 的截断 32 位数字和两种不同形式的 8 位浮点数的计算能力。后一个属性用于加速 transformer 神经网络某些部分的训练,例如大型语言模型。它们还都包含一种减小神经网络大小的方案,称为 4:2 稀疏性。
另一个相似之处是 CPU 和 GPU 都包含在同一个封装中。在许多人工智能计算机系统中,GPU 和 CPU 是单独封装的芯片,以 4 比 1 的比例部署。将它们集成在单个超级芯片中的一个优点是,CPU 和 GPU 都可以高带宽访问相同的缓存和高带宽 DRAM (HBM),并且在读写数据时不会互相干扰。
Nvidia 的 Grace-Hopper 就是这样一个超级芯片组合,通过 Nvidia 的 Nvidia NVLink Chip-2-Chip 互连将 Grace CPU 与 Hopper GPU 连接起来。AMD 的 MI300a 也是如此,通过使用 AMD Infinity Fabric 互连技术集成了专为其 Genoa 系列设计的三个 CPU 芯片和六个 XCD 加速器。
但粗略地看一下 Grace Hopper 和 MI300,就会发现一些深刻的差异。Grace 和 Hopper 都是独立的芯片,集成了片上系统所需的所有功能块(计算、I/O 和缓存)。它们是水平连接的,而且很大——几乎达到了光刻技术的尺寸极限。
AMD 采取了不同的方法,它在几代 CPU 中都采用了这种方法,竞争对手英特尔在其 3D 堆栈超级计算机加速器 Ponte Vecchio 中也采用了这种方法。这个概念被称为系统技术协同优化(STCO)。这意味着,设计人员首先将芯片分解为其功能,然后决定哪些功能需要哪种制造技术。
「我们想要使用 MI300 进行扩展,超越单个单片 GPU 的能力。因此,我们将其解构为碎片,然后将其重新构建起来,」Instinct 的高级研究员兼首席架构师 Alan Smith 说道。尽管已经在多代 CPU 中这样做,但 MI300 是该公司首次制造 GPU 小芯片并将它们绑定在单个系统中。
「将 GPU 分解为小芯片使我们能够将计算置于最先进的工艺节点中,同时将芯片的其余部分保留在更适合缓存和 I/O 的技术中。」他说。就 MI300 而言,所有计算都是使用台积电的 N5 工艺构建的,这是最先进的工艺,用于 Nvidia 的顶级 GPU。I/O 功能和系统缓存都无法从 N5 中受益,因此 AMD 为此选择了一种较便宜的技术 (N6)。因此,这两个功能可以一起构建在同一个小芯片上。
随着功能的分解,MI300 中涉及的所有硅片都变得很小。最大的 I/O 芯片甚至还不到 Hopper 的一半大小。而且 CCD 的尺寸仅为 I/O 芯片的 1/5 左右。小尺寸带来很大差异。一般来说,芯片越小产量越好。也就是说,单个晶圆将提供比大芯片更高比例的工作小芯片。「3D 集成不是免费的。」Naffziger 说。但他表示,更高的产量抵消了成本。
Luck and experience
Naffziger 表示,该设计涉及对现有技术和设计的巧妙重用、一些妥协以及一点运气。重用有两种情况。
首先,AMD 能够充满信心地进行 3D 集成,因为它已在其 V 缓存产品中使用了完全相同的垂直互连间距(9 微米)。作为 AMD 能够收取额外费用的可选附加组件,V-cache 很少有良率不佳或其他问题对公司产生重大影响的风险。「这让我们能够在不危及主要产品线的情况下解决制造问题和 3D 堆叠的所有设计复杂性,这是一件很棒的事情,」Naffziger 说道。
另一个重用的例子就有点冒险了。当 MI300 团队决定需要 CPU/GPU 组合时,Naffziger 「有些不好意思」地询问为 Genoa CPU 设计 Zen4 CCD 的团队负责人,是否可以制作出适合 MI300 需求的 CCD。
该团队面临着比预期更早完成任务的压力,但一天后他们做出了回应。Naffziger 很幸运;Zen4 CCD 在正确的位置有一个小的空白空间,可以在不破坏整体设计的情况下与 MI300 I/O 芯片及其相关电路进行垂直连接。
尽管如此,仍然有一些几何问题需要解决。为了使所有内部通信正常工作,四个 I/O 小芯片必须在特定边缘上相互面对。这意味着制作小芯片的镜像版本。由于它是与 I/O 小芯片共同设计的,因此 XCD 的垂直连接旨在与两个版本的 I/O 连接。但 CCD 没有受到任何干扰,他们很幸运能够拥有 CCD。因此,I/O 被设计为具有冗余连接,这样无论它位于哪个版本的小芯片上,CCD 都会连接。
图示:为了让一切都对齐,IOD 小芯片需要制作为彼此的镜像,并且加速器 (XCD) 和计算 (CCD) 小芯片必须旋转。(来源:AMD)
Naffziger 指出,电网必须向堆栈顶部的计算芯片提供数百安培的电流,也面临着类似的挑战,因为它也必须适应所有不同的小芯片方向。
相关报道:https://spectrum.ieee.org/amd-mi300