100%英伟达的错:黄仁勋确认Blackwell缺陷修复,明年初出货

老黄:科技公司的芯片需求让我夜不能寐。 「我们的 Blackwell 芯片存在设计缺陷,虽然可以正常使用,但该设计缺陷导致良率低下,」黄仁勋表示。 「这 100% 是英伟达的错。

老黄:科技公司的芯片需求让我夜不能寐。

「我们的 Blackwell 芯片存在设计缺陷,虽然可以正常使用,但该设计缺陷导致良率低下,」黄仁勋表示。「这 100% 是英伟达的错。」

自 3 月份发布以来,全球科技公司都在疯狂求购的 Blackwell AI 芯片,似乎终于要到了出货的时候。

本周三,在与高盛(Goldman Sachs)进行的会议中,英伟达表示 Blackwell GPU 中影响良率的设计缺陷已宣告修复,B100/B200 处理器的改进版即将投入量产。

据路透社等外媒报道,英伟达 CEO 黄仁勋本周承认,该缺陷完全由英伟达造成,并表示该现在已在台积电的及时帮助下修复了缺陷

图片

今年 8 月,当有关英伟达最新一代芯片 Blackwell 设计缺陷的第一批报道出现时,一些媒体称台积电应承担责任 —— 并暗示这可能导致英伟达与其代工合作伙伴之间的关系紧张。

黄仁勋表示,事实并非如此。他还驳斥了有关两家公司关系紧张的报道,并称其为「假新闻」。为了让 Blackwell 计算设备正常工作,英伟达设计了七种不同类型的芯片,并同时投入生产

英伟达的 Blackwell 芯片采用全新一代架构,台积电 4NP 工艺打造,拥有 2080 亿个晶体管,在执行大模型推理等任务时效率较前代提升了 30 倍,因而备受科技公司期待。

此种面积的芯片,显然不能再通过传统方式来打造。Blackwell 的 B100 和 B200 GPU 两个型号使用台积电的 CoWoS-L 封装技术连接两个芯片,该技术依赖于配备局部硅互连(LSI)桥接器的 RDL 中介层(以实现约 10 TB/s 的数据传输速率)。

英伟达表示,双芯片的 GPU 没有内存局部性问题或缓存问题,CUDA 将其视为单块 GPU,可见这些芯片的桥接器至关重要。然而,GPU 芯片、LSI 桥接器、RDL 中介层和主板基板之间的热膨胀特性可能不匹配,导致系统弯曲和故障。

图片

                            图源:Nvidia

因此,英伟达在 8 月承认了其 Blackwell GPU 的良品率低,需要修改 GPU 硅片的顶部金属层和凸片,以提高生产良率。当时,英伟达在一份声明中表示,「公司已经对 Blackwell GPU 的掩膜实施了修复。」

不过,英伟达也重申,公司在第二季度与客户一起对 Blackwell GPU 进行了抽样检查,并承认必须生产「低良率 Blackwell 材料」才能满足对 Blackwell 处理器的需求。

同时,黄仁勋在 2025 财年第二季度财报电话会议上表示,公司针对 Blackwell B100 和 B200 GPU 的设计进行了所有必要的变更,从而有望在第四季度实现量产。

图片

                                英伟达 Blackwell GPU 不同型号的参数规格。

其实在半导体行业中,影响良率的 bug 以及重大功能问题并不是什么新鲜事。通常,公司通过修改金属层(或两层)等新步进(stepping)来修复这些问题。

据此前报道,英特尔的 Sapphire Rapids 有 500 个 bug。因此,英特尔发布了大约十几个步进来修复所有 bug(其中五个是基础重置)。每个新步进大约需要三个月才能完成(包括识别问题、修复问题和生产新版本芯片)。

图片

                               图源:Intel

从这一点来看,英伟达和台积电修复 Blackwell GPU 的速度的确令人印象深刻。

目前,已修复的用于 AI 和超级计算机的 Blackwell GPU 预计将于最近几天投入量产,并在 2025 年初开始发货(仍在英伟达 2025 财年内)

此外,根据英伟达在今年初披露的消息,AWS、谷歌、Meta 和微软是其主要客户(合计收入占比高达 40%),为满足他们对其新一代 AI 算力的需求,该公司必须在本年度出货一些最初低良率的 Blackwell GPU。不过,2024 年究竟会有多少 Blackwell GPU 被「送」往数据中心,我们不得而知。

周三美股收盘,刚刚创下历史新高的英伟达股票收跌 2.81 %,回落到 140 美元以下。

图片

参考内容:

https://www.tomshardware.com/pc-components/gpus/nvidia-adresses-significant-blackwell-yield-issues-production-ramp-in-q4

https://www.reuters.com/technology/artificial-intelligence/nvidias-design-flaw-with-blackwell-ai-chips-now-fixed-ceo-says-2024-10-23/

https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidias-jensen-huang-admits-ai-chip-design-flaw-was-100-percent-nvidias-fault-tsmc-not-to-blame-now-fixed-blackwell-chips-are-in-production

相关资讯

英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

「这才是我理想中的 GPU。」—— 黄仁勋。「这不是演唱会。你们是来参加开发者大会的!」老黄出场时,现场爆发出了巨大的欢呼声。今天凌晨四点,加州圣何塞,全球市值第三大公司英伟达一年一度的 GTC 大会开始了。今年的 GTC 大会伴随着生成式 AI 技术爆发,以及英伟达市值的暴涨。相对的是,算力市场也在升温,硬件和软件方面的竞争都在加剧。而英伟达带来的产品,再次将 AI 芯片的标杆推向了难以想象的高度。「通用计算已经失去动力,现在我们需要更大的模型,我们需要更大的 GPU,更需要将 GPU 堆叠在一起。」黄仁勋说道。

全球最强GPU芯片已量产、下一代Rubin曝光,老黄继续打破摩尔定律

黄仁勋:我家的 GPU 芯片一年一更新,其他家怎么追?昨晚,英伟达创始人、CEO 黄仁勋在 2024 年 COMPUTEX 科技大会上又为全球发烧友们、显卡买家们带来了一场重磅演讲。                               经典皮肤(皮衣)老黄亮相。在会上,黄仁勋分享了有关 AI 芯片及架构、加速计算、AI 理解物理世界、机器人的成果和洞见。量产版 Blackwell 亮相下一代 AI 平台 Rubin 两年后到来今年 3 月,英伟达在其一年一度的 GTC 大会上官宣了 2080 亿晶体管的 B

英伟达新一代 Blackwell GPU 被曝存在过热问题,导致交付延迟

据《The Information》报道,英伟达新一代 Blackwell 处理器在高容量服务器机架中存在严重的过热问题。这些问题导致设计调整与项目延期,使谷歌、 Meta 和微软等主要客户对能否按计划部署 Blackwell 服务器感到担忧。