AI工厂作为新兴的数据中心概念,正引领着AI处理技术的革新,然而,其真正潜力如何?成本与挑战又有哪些?本文将深入探讨AI工厂的现状与未来。
你可能听说过“AI工厂”这个词,但它到底意味着什么?到目前为止,这个概念更多地被炒作而非明确定义,主要是由英伟达在推动。该公司的愿景是数据中心里装满高端AI加速器,但这个愿景是现实可行的,还是只是战略营销手段?
简而言之,AI工厂是专为AI处理而设计的专业化数据中心,而非用于托管数据库、文件存储、业务应用或网络服务等传统工作负载。AI工厂以GPU为核心构建,在处理AI工作负载时,GPU在速度和性能上均优于CPU。
AI工厂是专为处理大量数据以用于GenAI应用、训练模型并生成文本、图像、视频或音频等输出而设计的设施。它们还负责更新AI系统并控制其他技术,包括机器人和超级计算机。
由于GPU运行温度高且功耗大,与传统数据中心相比,AI工厂需要更多的能源和冷却。它们很可能被安置在能源成本低廉且水资源充足的地方,以便进行液冷。
一个例子是埃隆·马斯克的xAI数据中心,该中心配备了10万台英伟达H100 GPU,用于高级AI处理。按每台GPU 4万美元估算,这代表了一位客户超过40亿美元的投资——这或许说明了为什么英伟达CEO黄仁勋继续力推AI工厂的概念。
AI工厂:炒作与现实
虽然这个概念很吸引人,但我们真的会看到黄仁勋所承诺的AI工厂浪潮吗?可能并不会大规模出现。AI硬件不仅购置和运营成本高昂,而且它并不像数据库服务器那样持续运行。一旦模型训练完成,可能数月都不需要更新,导致这些昂贵的基础设施闲置。
因此,专注于基础设施和数据中心的Omdia首席分析师艾伦·霍华德认为,大多数AI硬件部署将发生在多功能数据中心。这些设施可能会设置专门的“AI区域”,同时配备用于标准计算和其他工作负载的区域。
“我们的感觉是,会有一些专门的AI数据中心,但不太可能像我们所被引导相信的那样普及。”霍华德告诉记者。
“如果我在数据中心有一个5万平方英尺的数据大厅,并且电力充足,那么我可以创建一个区域或套房,以满足AI设备部署的高电力需求。你不会看到很多数据中心里全是AI设备……它将是更大数据中心的一部分。”
对大多数人来说成本过高
咨询公司TEKsystems的首席技术官拉姆·帕拉尼阿潘同意专门AI数据中心将保持有限的观点,这主要是由于涉及的高成本。
“企业在进行的数据推理远比实际用数据训练要多,”他说。“如果你能在数据中心内划分区域,其中一些部分专门用于AI,你就可以用那部分GPU容量来训练模型,然后剩下的CPU将用于模型推理。这就是我们看到的数据中心世界如何根据企业AI的消费和使用情况进行调整。”
电信数字化转型提供商Amdocs的集团总裁兼战略与技术负责人安东尼·古纳蒂拉克认为,许多下一代AI工厂将通过AI即服务(AIaaS)模式提供给客户租赁,像AWS等主要云服务提供商都提供这种模式。
“人们试图建立AI工厂,从根本上创建一个模型,以便他们可以将AI能力作为一种服务来销售,就像我们的一些客户希望做的那样。”古纳蒂拉克告诉记者。“归根结底,可以将其视为GenAI基础设施即服务。我认为AI即服务具有很多潜在的上行空间,因为AI硬件的投资非常昂贵,而且在很多情况下,你可能不再需要它,或者你可能不需要使用那么多。”
帕拉尼阿潘补充说,AI技术发展迅速,要跟上竞争步伐的成本高得令人望而却步。“当你开始考虑这些GPU的成本,以及它们很快就会过时,这就会成为瓶颈,”他说。“如果你试图利用数据中心,你总是希望设施里能有最新的芯片,因此许多数据中心因为这些努力而亏损。”
别忘了网络
除了GPU的成本,网络硬件也需要大量投资,因为所有GPU需要高效地相互通信。EdgeCore Digital Infrastructure的战略高级副总裁汤姆·特劳戈特解释说,在典型的八GPU英伟达DGX系统中,GPU通过NVLink通信。然而,要与其他GPU共享数据,它们依赖于以太网或InfiniBand,这需要大量的网络硬件来支持连接。
“当你进行训练运行时,就像团队中的个人一样,”特劳戈特说。“他们都在同一个项目上工作,并且会定期集体汇合并交流心得。”
在较小的集群中,网络成本与传统数据中心相似。然而,在拥有5000、10000或20000个GPU的集群中,网络成本约占整体资本支出的15%,他说。由于数据集如此庞大,单个网络接口卡(NIC)很容易饱和,因此需要多个网络连接。为了避免瓶颈,需要多个NIC——成本很快就会累积。
“显然,这可能占到整体支出的30%至40%,这与前几代相比是不成比例的。”特劳戈特告诉记者。
AI工厂的未来
这仍然是一项非常新的技术。目前只有一个已知的正在开发的AI工厂,即xAI设施。英伟达最近才发布了构建AI工厂的蓝图,称为企业参考设计,以帮助指导建设过程。随着概念的发展,很多事情都可能发生变化,并且需要一些明确性。
“所以,这会是一个小趋势,只有少数公司建立少数专门的AI工厂,还是会更大?我个人猜测,大概要过一年,我们才能更好地判断新数据中心建设在AI工厂世界中是否基本上呈现出新的面貌。”霍华德说。