AI工厂中的炒作与现实

AI工厂作为新兴的数据中心概念,正引领着AI处理技术的革新,然而,其真正潜力如何?成本与挑战又有哪些?本文将深入探讨AI工厂的现状与未来。 你可能听说过“AI工厂”这个词,但它到底意味着什么?到目前为止,这个概念更多地被炒作而非明确定义,主要是由英伟达在推动。 该公司的愿景是数据中心里装满高端AI加速器,但这个愿景是现实可行的,还是只是战略营销手段?简而言之,AI工厂是专为AI处理而设计的专业化数据中心,而非用于托管数据库、文件存储、业务应用或网络服务等传统工作负载。

AI工厂中的炒作与现实

AI工厂作为新兴的数据中心概念,正引领着AI处理技术的革新,然而,其真正潜力如何?成本与挑战又有哪些?本文将深入探讨AI工厂的现状与未来。

你可能听说过“AI工厂”这个词,但它到底意味着什么?到目前为止,这个概念更多地被炒作而非明确定义,主要是由英伟达在推动。该公司的愿景是数据中心里装满高端AI加速器,但这个愿景是现实可行的,还是只是战略营销手段?

简而言之,AI工厂是专为AI处理而设计的专业化数据中心,而非用于托管数据库、文件存储、业务应用或网络服务等传统工作负载。AI工厂以GPU为核心构建,在处理AI工作负载时,GPU在速度和性能上均优于CPU。

AI工厂是专为处理大量数据以用于GenAI应用、训练模型并生成文本、图像、视频或音频等输出而设计的设施。它们还负责更新AI系统并控制其他技术,包括机器人和超级计算机。

由于GPU运行温度高且功耗大,与传统数据中心相比,AI工厂需要更多的能源和冷却。它们很可能被安置在能源成本低廉且水资源充足的地方,以便进行液冷。

一个例子是埃隆·马斯克的xAI数据中心,该中心配备了10万台英伟达H100 GPU,用于高级AI处理。按每台GPU 4万美元估算,这代表了一位客户超过40亿美元的投资——这或许说明了为什么英伟达CEO黄仁勋继续力推AI工厂的概念。

AI工厂:炒作与现实

虽然这个概念很吸引人,但我们真的会看到黄仁勋所承诺的AI工厂浪潮吗?可能并不会大规模出现。AI硬件不仅购置和运营成本高昂,而且它并不像数据库服务器那样持续运行。一旦模型训练完成,可能数月都不需要更新,导致这些昂贵的基础设施闲置。

因此,专注于基础设施和数据中心的Omdia首席分析师艾伦·霍华德认为,大多数AI硬件部署将发生在多功能数据中心。这些设施可能会设置专门的“AI区域”,同时配备用于标准计算和其他工作负载的区域。

“我们的感觉是,会有一些专门的AI数据中心,但不太可能像我们所被引导相信的那样普及。”霍华德告诉记者。

“如果我在数据中心有一个5万平方英尺的数据大厅,并且电力充足,那么我可以创建一个区域或套房,以满足AI设备部署的高电力需求。你不会看到很多数据中心里全是AI设备……它将是更大数据中心的一部分。”

对大多数人来说成本过高

咨询公司TEKsystems的首席技术官拉姆·帕拉尼阿潘同意专门AI数据中心将保持有限的观点,这主要是由于涉及的高成本。

“企业在进行的数据推理远比实际用数据训练要多,”他说。“如果你能在数据中心内划分区域,其中一些部分专门用于AI,你就可以用那部分GPU容量来训练模型,然后剩下的CPU将用于模型推理。这就是我们看到的数据中心世界如何根据企业AI的消费和使用情况进行调整。”

电信数字化转型提供商Amdocs的集团总裁兼战略与技术负责人安东尼·古纳蒂拉克认为,许多下一代AI工厂将通过AI即服务(AIaaS)模式提供给客户租赁,像AWS等主要云服务提供商都提供这种模式。

“人们试图建立AI工厂,从根本上创建一个模型,以便他们可以将AI能力作为一种服务来销售,就像我们的一些客户希望做的那样。”古纳蒂拉克告诉记者。“归根结底,可以将其视为GenAI基础设施即服务。我认为AI即服务具有很多潜在的上行空间,因为AI硬件的投资非常昂贵,而且在很多情况下,你可能不再需要它,或者你可能不需要使用那么多。”

帕拉尼阿潘补充说,AI技术发展迅速,要跟上竞争步伐的成本高得令人望而却步。“当你开始考虑这些GPU的成本,以及它们很快就会过时,这就会成为瓶颈,”他说。“如果你试图利用数据中心,你总是希望设施里能有最新的芯片,因此许多数据中心因为这些努力而亏损。”

别忘了网络

除了GPU的成本,网络硬件也需要大量投资,因为所有GPU需要高效地相互通信。EdgeCore Digital Infrastructure的战略高级副总裁汤姆·特劳戈特解释说,在典型的八GPU英伟达DGX系统中,GPU通过NVLink通信。然而,要与其他GPU共享数据,它们依赖于以太网或InfiniBand,这需要大量的网络硬件来支持连接。

“当你进行训练运行时,就像团队中的个人一样,”特劳戈特说。“他们都在同一个项目上工作,并且会定期集体汇合并交流心得。”

在较小的集群中,网络成本与传统数据中心相似。然而,在拥有5000、10000或20000个GPU的集群中,网络成本约占整体资本支出的15%,他说。由于数据集如此庞大,单个网络接口卡(NIC)很容易饱和,因此需要多个网络连接。为了避免瓶颈,需要多个NIC——成本很快就会累积。

“显然,这可能占到整体支出的30%至40%,这与前几代相比是不成比例的。”特劳戈特告诉记者。

AI工厂的未来

这仍然是一项非常新的技术。目前只有一个已知的正在开发的AI工厂,即xAI设施。英伟达最近才发布了构建AI工厂的蓝图,称为企业参考设计,以帮助指导建设过程。随着概念的发展,很多事情都可能发生变化,并且需要一些明确性。

“所以,这会是一个小趋势,只有少数公司建立少数专门的AI工厂,还是会更大?我个人猜测,大概要过一年,我们才能更好地判断新数据中心建设在AI工厂世界中是否基本上呈现出新的面貌。”霍华德说。

相关资讯

扎克伯格:AI 数据中心 GPU 紧缺正在缓解,电力将成新瓶颈

Meto CEO 马克・扎克伯格(Mark Zuckerberg)近日在接受油管 Dwarkesh Patel 频道采访时表示,AI 数据中心的 GPU 紧缺已在缓解过程中,未来的瓶颈将是电力供应。扎克伯格首先提到,此前一段时间,IT 企业即使资金充足也难以买到全部所需数量的 AI GPU,但这一情况目前已开始缓解。目前新建的单一数据中心在整体功耗方面可达到 50~100MW 乃至 150MW;但扎克伯格认为 1GW 级别的数据中心不会很快出现,毕竟这相当于将一整个核电机组的发电能力用于训练 AI(IT之家注:作为

数据中心维护的未来发展

人工智能(AI)和高性能计算(HPC)加快了采用新的冷却和电源技术的步伐,加剧了数据中心维护中的资源可用性挑战,特别是规模和容量。 随着技术和操作需求的发展,传统的基于间隔的预防性维护方法可以得到改进,以进一步降低昂贵的设备停机风险。 人工智能与机器学习算法的发展为帮助数据中心的维护计划变得具有预测性奠定了基础。

36000亿元!OpenAI启动全球史上最大规模AI基础设施项目,英伟达软银甲骨文均参与

史上最大规模AI基础设施项目启动! 不久之前,OpenAI官宣了一项“星际之门”(The Stargate Project)计划——将与软银甲骨文组建合资公司,未来4年内总投资5000亿美元(约合3.64万亿元人民币)在美国建立多个AI数据中心。 该计划将立即启动,而且OpenAI一出手就准备先投它个1000亿美元。