英伟达年终大礼,最强AI GPU曝光!全新B300让o1/o3推理性能上天算力爆表

多亏了老黄,圣诞节如期而至。 尽管Blackwell GPU多次因硅片、封装和底板问题而推迟发布,但这并不能阻挡他们前进的脚步。 距离GB200和B200的发布才刚刚过去几个月,英伟达便推出了全新一代的AI GPU——GB300和B300。

多亏了老黄,圣诞节如期而至。

尽管Blackwell GPU多次因硅片、封装和底板问题而推迟发布,但这并不能阻挡他们前进的脚步。

距离GB200和B200的发布才刚刚过去几个月,英伟达便推出了全新一代的AI GPU——GB300和B300。

更为有趣的是,这次看似普通的更新背后,实则内含玄机。其中最为突出的,便是模型的推理和训练性能得到了大幅增强。

而随着B300的推出,整个供应链正在进行重组和转型,赢家将从中获益(获得礼物),而输家则处境不妙(收到煤炭)。

图片

这正是英伟达送给所有超大规模云计算供应商、特定供应链合作伙伴、内存供应商以及投资者的特别「圣诞礼物」

不过就在上周,天风国际分析师郭明錤却在研报中曝出,B300/GB300的DrMOS存在严重的过热问题!

而这,很可能会影响B300/GB300的量产进度。

图片

具体分析如下——

图片

这已经不是Blackwell第一次被曝出存在设计问题了

B300和GB300:绝不仅是一次小升级

根据SemiAnalysis的最新爆料,B300 GPU对计算芯片的设计进行了优化,并采用了全新的TSMC 4NP工艺节点进行流片。

相比于B200,其性能的提升主要在以下两个方面:

1. 算力

  • FLOPS性能提升50%
  • 功耗增加200W(GB300和B300 HGX的TDP分别达到1.4KW和1.2KW;前代则为1.2KW和1KW)
  • 架构改进和系统级增强,例如CPU和GPU之间的动态功率分配(power sloshing)

2. 内存

  • HBM容量增加50%,从192GB提升至288GB
  • 堆叠方案从8层HBM3E升级为12层
  • 针脚速率保持不变,带宽仍为8TB/s

专为「推理模型」优化

序列长度的增加,导致KV Cache也随之扩大,从而限制了关键批处理大小和延迟。

因此,显存的改进对于OpenAI o3这类大模型的训练和推理至关重要。

下图展示了英伟达H100和H200在处理1,000个输入token和19,000个输出token时的效能提升,这与OpenAI的o1和o3模型中的思维链(CoT)模式相似。

图片

H100和H200的Roofline模拟,通过FP8精度的Llama 405B模型完成

H100到H200的升级,主要在于更大、更快的显存:

  1. 更高的带宽使交互性能普遍提升了43%(H200为4.8TB/s,而H100为3.35TB/s)
  2. 更大的批处理规模,使每秒token生成量提升了3倍,进而使成本也降低了约3倍

而对运营商而言,这H100和H200之间的性能与经济差异,远远超过技术参数的数字那么简单。

首先,此前的推理模型时常因请求响应时间长而影响体验,而现在有了更快的推理速度后,用户的使用意愿和付费倾向都将显著提高。

其次,成本降低3倍的效益,可是极为可观的。仅通过中期显存升级,硬件就能实现3倍性能提升,这种突破性进展远远超过了摩尔定律、黄氏定律或任何已知的硬件进步速度。

最后,性能最顶尖、具有显著差异化优势的模型,能因此获得更高溢价。

SOTA模型的毛利率已经超过70%,而面临开源竞争的次级模型利润率仅有20%以下。推理模型可突破单一思维链限制,通过扩展搜索功能提升性能(如o1 Pro和o3),从而使模型更智能地解决问题,提高GPU收益。

当然,英伟达并非唯一能提供大容量显存的厂商。

ASIC和AMD都具备这样的能力。而AMD更是凭借更大的显存容量(MI300X:192GB、MI325X:256GB、MI350X:288GB)占据了优势地位。

不过,老黄手里还有一张「绝对王牌」——NVLink

NVL72在推理领域的核心优势在于,它能让72个GPU以超低延迟协同工作、共享显存。

而这也是全球唯一具备全连接交换(all-to-all switched connectivity)和全规约运算(all reduce)能力的加速器系统。

英伟达的GB200 NVL72和GB300 NVL72,对以下这些关键能力的实现极其重要——

  1. 更高交互性,实现更低思维链延迟
  2. 72个GPU分散KV Cache,支持更长思维链,提升智能水平
  3. 相比传统8 GPU服务器,具备更优批处理扩展性
  4. 支持更多样本并行搜索,提升准确性和模型性能

总体而言,NVL72可以在经济效益上实现10倍以上提升,尤其是在长推理链场景中。

而且,NVL72还是目前唯一能在高批处理下,将推理长度扩展至10万以上token的解决方案。

供应链重构

此前GB200时期,英伟达提供完整的Bianca主板(包含Blackwell GPU、Grace CPU、512GB LPDDR5X内存以及集成在同一PCB上的电压调节模块VRM),同时还提供交换机托盘和铜质背板。

但随着GB300的推出,供应链的结构和产品内容,将发生重大调整。

图片

在新方案GB300中行,英伟达只提供三个核心组件的供应:

  • 搭载在「SXM Puck」模块上的B300
  • BGA封装的Grace CPU
  • 由美国初创企业Axiado提供的基板管理控制器(HMC),取代了原有的Aspeed方案

终端客户将需要直接采购计算板上的其他组件。同时,第二级内存方案,从焊接式LPDDR5X改为可更换的LPCAMM模块,主要由美光供应。交换机托盘和铜质背板仍由英伟达全权负责。

图片

相比此前仅有纬创和富士康工业互联网(FII)能够制造Bianca计算板的局面,SXM Puck方案打破了原有的市场格局。

它的采用为更多OEM和ODM厂商参与计算托盘制造创造了机会:

  • 纬创在ODM领域受影响最大,Bianca主板份额显著下降
  • 富士康工业互联网通过独家生产SXM Puck及其插座,抵消了Bianca主板业务的损失
  • 英伟达正在寻求Puck和插座的其他供应商,但目前尚未确定新订单

其次,是VRM供应链。

尽管SXM Puck上仍保留部分VRM组件,但主要的板载VRM将由超大规模数据中心运营商和OEM直接从供应商采购:

  • Monolithic Power Systems的市场份额将因商业模式转变而下降
  • 市场格局重塑为新供应商创造了更多的机会

第三,英伟达在互联技术也取得了突破。

GB300平台搭载了800G ConnectX-8网络接口卡,可在InfiniBand和以太网上提供双倍的扩展带宽。

相较于上一代ConnectX-7,ConnectX-8具有多项显著优势:

  • 带宽提升100%
  • PCIe通道数从32增至48,支持空冷MGX B300A等创新性架构设计
  • 原生支持SpectrumX,无需借助效率较低的Bluefield 3 DPU(此前400G产品的方案)

对超算中心的影响

在2024年第三季度,受GB200和GB300发布延迟影响,大量订单转向了英伟达价格更高的新一代GPU。

截至上周,所有超算中心均已决定采用GB300方案。这一决策基于两个因素:

  • GB300提供更高的FLOPS算力和更大的显存容量
  • 客户拥有更多系统定制自主权

此前,由于上市时间压力以及机架、散热和供电密度的重大调整,超算中心此前难以对GB200服务器进行深度定制。

这迫使Meta完全放弃了同时向博通和英伟达采购网络接口卡的计划,转而完全依赖英伟达。类似地,谷歌也放弃了自研网络接口卡方案,转而采用英伟达的解决方案。

对于那些一向精于优化从处理器到网络设备,甚至到螺丝和钣金等各个环节成本的超算中心数千人研发团队来说,为其带去了极大的困扰。

另外,亚马逊的案例最具代表性。他们选择了一个次优配置,导致总拥有成本(TCO)超过了参考设计。

由于使用PCIe交换机和需要风冷的低效200G弹性网络适配器,亚马逊无法像Meta、谷歌、微软、甲骨文、xAI和Coreweave那样部署NVL72机架。

受限于其内部网卡方案,亚马逊被迫采用NVL36架构,却因更高的背板和交换机成本推高了每个GPU的支出。

总体而言,因定制化受限,导致亚马逊的配置方案并不理想。

GB300的推出,为超算中提供了更大自主权,比如可以自主定制主板、散热系统等。

这使得亚马逊能够开发自己的定制主板,将此前需要风冷的组件(如Astera Labs PCIe交换机)整合进水冷系统。

随着更多组件采用水冷设计,加上K2V6 400G网卡将在2025年第三季度实现规模化量产,亚马逊有望重返NVL72架构,显著提升TCO效率。

然而这也带来了一个显著挑战:超算中心需要投入更多资源进行设计、验证和确认工作。

这无疑是超算中心面临的最复杂系统设计项目(除谷歌TPU外)。部分超算中心能够快速完成设计,但设计团队较慢的机构则明显落后。

尽管市场传闻有公司取消订单,但SemiAnalysis观察到由于设计进度较慢,微软可能是最晚部署GB300的机构之一,他们在第四季度仍在采购GB200。

随着部分组件从英伟达转移到原始设计制造商(ODM),客户的总采购成本出现较大差异。

这不仅影响了ODM的收入,更重要的是导致英伟达全年的毛利率产生波动。下面将更详细分析这些变动对英伟达利润产生的影响。

值得一提的是,三星在未来至少9个月内,都无法进入GB200或GB300的供应链。

对英伟达利润的影响

怀着「圣诞精神」的英伟达,在新的定价策略上也颇有看点——这将直接影响Blackwell系列的利润。

随着显存方案从SK海力士和美光的8层HBM3E堆栈升级至12层HBM3E堆栈,显存容量获得了显著提升。

这一升级,直接导致英伟达芯片级物料清单(BOM)成本增加约2,500美元。

成本的增加主要来自——

  • 更高的容量
  • 堆栈层数增加带来的每GB显存溢价
  • 封装良率下降带来的额外成本

第三点也反映出高带宽显存(HBM)在物料成本中的主导地位(随着推理模型对显存容量和带宽需求增加,这一趋势将持续加强)。

总体而言,GB300的平均售价较GB200提高约4,000美元,其中HBM成本增加约2,500美元,而增量利润率不足40%,而GB200整体的利润率维持在70%的中低水平。

然而,由于前述内容变化,英伟达减少了整体供应内容,转由超算中心自行采购,由此,英伟达实现了成本平衡。

首先,英伟达不再提供每个Grace CPU配套的512GB LPDDR5X内存,这抵消了大部分额外的HBM成本支出。

其次,PCB的成本节省最为显著。

综合各项因素,在平均销售价格提升4,000美元的同时,英伟达的物料成本仅增加略超1,000美元。

GB300相对于GB200的增量毛利率达到73%,这意味着在良率保持稳定的情况下,该产品的利润水平基本持平。

这一结果虽然看似平常,但值得注意的是,HBM升级周期通常会导致利润率下降(例如H200、MI325X的情况),而这次这一惯例被打破了。

此外,随着各项工程技术问题的逐步解决,良率将会提升,在度过Blackwell初期的产能爬升期后,利润率预计会在年内逐步改善。

图片

相关资讯

墨芯首席科学家严恩勖:为什么说稀疏化是AI计算的未来

主讲人:严恩勖墨芯人工智能联合创始人 & 首席科学家卡内基梅隆大学 机器学习博士神经网络动态稀疏算法发明者视频简介:10年前,AI计算优化大多着重在优化算法的计算复杂度上,近年来随着AI产业化,AI计算优化更多注重在硬件的算力提升上。当前,硬件所能带来的算力提升已逼近极限,AI优化计算的未来将是算法与硬件架构的协同优化,以及构建相应的软件生态。稀疏化计算,带来数量级的算力提升,将成为未来AI计算优化的领航者。视频内容:

墨芯获评《财富》中国最具社会影响力的创业公司

近日,墨芯人工智能获评2022《财富》“中国最具社会影响力的创业公司”。这是过去1个月墨芯因稀疏化计算的产业进展获得的第3个奖项。《财富》(Fortune Magazine)于1930年由亨利·卢斯创办,是全球最有影响力的商业杂志之一,财富全球500强排行榜是世界上最具影响的企业排名之一。中国最具社会影响力的创业公司榜单不仅记录创业公司在中国商业世界中的作为与贡献,也是观察和审视当前中国经济与社会发展的窗口之一。财富在描述评选标准时提到,尽管外部环境对创新与创业施加着无法预知的影响,但这些创业公司的商业路径“在解决

12nm战胜4nm|权威AI测试MLPerf放榜,单卡算力超H100!

2020年9月9日,全球权威AI基准评测MLPerf Inference v2.1榜单公布结果。MLPerf是业内公认的国际权威AI性能基准评测,由图灵奖得主大卫·帕特森(David Patterson)联合谷歌、英伟达 、英特尔、Facebook、浪潮等全球AI领军企业,以及来自哈佛大学、斯坦福大学等学术机构的研究人员创立。该测评以其标准严格、测评严谨而著称,英伟达、高通等国际AI芯片企业均携最强产品参加测评,竞争十分激烈,各赛道均有数百项产品提交成绩。中国AI芯片企业首次超越英伟达“史上最强GPU”、未来4nm