AI工厂中的炒作与现实

AI工厂作为新兴的数据中心概念，正引领着AI处理技术的革新，然而，其真正潜力如何?成本与挑战又有哪些?本文将深入探讨AI工厂的现状与未来。你可能听说过“AI工厂”这个词，但它到底意味着什么?到目前为止，这个概念更多地被炒作而非明确定义，主要是由英伟达在推动。该公司的愿景是数据中心里装满高端AI加速器，但这个愿景是现实可行的，还是只是战略营销手段?简而言之，AI工厂是专为AI处理而设计的专业化数据中心，而非用于托管数据库、文件存储、业务应用或网络服务等传统工作负载。

AI工厂中的炒作与现实

AI工厂作为新兴的数据中心概念，正引领着AI处理技术的革新，然而，其真正潜力如何?成本与挑战又有哪些?本文将深入探讨AI工厂的现状与未来。

你可能听说过“AI工厂”这个词，但它到底意味着什么?到目前为止，这个概念更多地被炒作而非明确定义，主要是由英伟达在推动。该公司的愿景是数据中心里装满高端AI加速器，但这个愿景是现实可行的，还是只是战略营销手段?

简而言之，AI工厂是专为AI处理而设计的专业化数据中心，而非用于托管数据库、文件存储、业务应用或网络服务等传统工作负载。AI工厂以GPU为核心构建，在处理AI工作负载时，GPU在速度和性能上均优于CPU。

AI工厂是专为处理大量数据以用于GenAI应用、训练模型并生成文本、图像、视频或音频等输出而设计的设施。它们还负责更新AI系统并控制其他技术，包括机器人和超级计算机。

由于GPU运行温度高且功耗大，与传统数据中心相比，AI工厂需要更多的能源和冷却。它们很可能被安置在能源成本低廉且水资源充足的地方，以便进行液冷。

一个例子是埃隆·马斯克的xAI数据中心，该中心配备了10万台英伟达H100 GPU，用于高级AI处理。按每台GPU 4万美元估算，这代表了一位客户超过40亿美元的投资——这或许说明了为什么英伟达CEO黄仁勋继续力推AI工厂的概念。

AI工厂：炒作与现实

虽然这个概念很吸引人，但我们真的会看到黄仁勋所承诺的AI工厂浪潮吗?可能并不会大规模出现。AI硬件不仅购置和运营成本高昂，而且它并不像数据库服务器那样持续运行。一旦模型训练完成，可能数月都不需要更新，导致这些昂贵的基础设施闲置。

因此，专注于基础设施和数据中心的Omdia首席分析师艾伦·霍华德认为，大多数AI硬件部署将发生在多功能数据中心。这些设施可能会设置专门的“AI区域”，同时配备用于标准计算和其他工作负载的区域。

“我们的感觉是，会有一些专门的AI数据中心，但不太可能像我们所被引导相信的那样普及。”霍华德告诉记者。

“如果我在数据中心有一个5万平方英尺的数据大厅，并且电力充足，那么我可以创建一个区域或套房，以满足AI设备部署的高电力需求。你不会看到很多数据中心里全是AI设备……它将是更大数据中心的一部分。”

对大多数人来说成本过高

咨询公司TEKsystems的首席技术官拉姆·帕拉尼阿潘同意专门AI数据中心将保持有限的观点，这主要是由于涉及的高成本。

“企业在进行的数据推理远比实际用数据训练要多，”他说。“如果你能在数据中心内划分区域，其中一些部分专门用于AI，你就可以用那部分GPU容量来训练模型，然后剩下的CPU将用于模型推理。这就是我们看到的数据中心世界如何根据企业AI的消费和使用情况进行调整。”

电信数字化转型提供商Amdocs的集团总裁兼战略与技术负责人安东尼·古纳蒂拉克认为，许多下一代AI工厂将通过AI即服务(AIaaS)模式提供给客户租赁，像AWS等主要云服务提供商都提供这种模式。

“人们试图建立AI工厂，从根本上创建一个模型，以便他们可以将AI能力作为一种服务来销售，就像我们的一些客户希望做的那样。”古纳蒂拉克告诉记者。“归根结底，可以将其视为GenAI基础设施即服务。我认为AI即服务具有很多潜在的上行空间，因为AI硬件的投资非常昂贵，而且在很多情况下，你可能不再需要它，或者你可能不需要使用那么多。”

帕拉尼阿潘补充说，AI技术发展迅速，要跟上竞争步伐的成本高得令人望而却步。“当你开始考虑这些GPU的成本，以及它们很快就会过时，这就会成为瓶颈，”他说。“如果你试图利用数据中心，你总是希望设施里能有最新的芯片，因此许多数据中心因为这些努力而亏损。”

别忘了网络

除了GPU的成本，网络硬件也需要大量投资，因为所有GPU需要高效地相互通信。EdgeCore Digital Infrastructure的战略高级副总裁汤姆·特劳戈特解释说，在典型的八GPU英伟达DGX系统中，GPU通过NVLink通信。然而，要与其他GPU共享数据，它们依赖于以太网或InfiniBand，这需要大量的网络硬件来支持连接。

“当你进行训练运行时，就像团队中的个人一样，”特劳戈特说。“他们都在同一个项目上工作，并且会定期集体汇合并交流心得。”

在较小的集群中，网络成本与传统数据中心相似。然而，在拥有5000、10000或20000个GPU的集群中，网络成本约占整体资本支出的15%，他说。由于数据集如此庞大，单个网络接口卡(NIC)很容易饱和，因此需要多个网络连接。为了避免瓶颈，需要多个NIC——成本很快就会累积。

“显然，这可能占到整体支出的30%至40%，这与前几代相比是不成比例的。”特劳戈特告诉记者。

AI工厂的未来

这仍然是一项非常新的技术。目前只有一个已知的正在开发的AI工厂，即xAI设施。英伟达最近才发布了构建AI工厂的蓝图，称为企业参考设计，以帮助指导建设过程。随着概念的发展，很多事情都可能发生变化，并且需要一些明确性。

“所以，这会是一个小趋势，只有少数公司建立少数专门的AI工厂，还是会更大?我个人猜测，大概要过一年，我们才能更好地判断新数据中心建设在AI工厂世界中是否基本上呈现出新的面貌。”霍华德说。