彭博社25日报道,亚马逊正在通过其雄心勃勃的AI芯片计划,力图在云计算和人工智能领域减少对英伟达的依赖,尽管短期内不太可能取而代之。
作者 | Matt Day, Ian King, and Dina Bass
在一个平凡的北奥斯汀社区,周围是匿名的企业办公大楼,亚马逊的工程师们正在为科技行业最雄心勃勃的计划之一而努力:打破英伟达(Nvidia)在1000亿美元以上的人工智能芯片市场上的垄断。
亚马逊的实用工程实验室里,一排排长工作台俯瞰着德州首府日益扩展的郊区。这里有点乱。印刷电路板、散热风扇、电缆和网络设备散落在工作站上,处于不同的组装状态,有些还弄脏了与芯片连接的导热膏,这些膏状物能帮助芯片与防止过热的组件连接。这里的氛围就像一个创业公司,而非一家市值超过2万亿美元的大公司。
在这里工作的工程师们毫不犹豫地跑到家得宝(Home Depot)买钻床,如果能加快进度,他们也乐于学习自己不擅长的领域。经过数年的艰难努力,试图从零开始创造机器学习芯片,他们发现自己背负着尽快推出一款与英伟达竞争的芯片的责任。这不仅仅是关于计算能力的问题,更重要的是构建一个简单、可靠的系统,能够迅速将亚马逊的数据中心转变为巨大的人工智能机器。
图片
拉米·辛诺(Rami Sinno),一位外向的黎巴嫩裔工程师,曾在芯片行业工作了几十年,负责芯片设计和测试。他曾帮助打造亚马逊AI半导体的前两代,现在正在争分夺秒,力求在今年年底前让最新版本的Trainium2在数据中心中稳定运行。“让我晚上无法安睡的是,如何尽可能快地实现这一目标,”辛诺说。
在过去的两年里,英伟达已经从一家利基芯片制造商转变为生成式AI硬件的主要供应商,这一地位让它成为了全球市值最大的公司。英伟达的处理器每个售价数万美元,由于需求极其旺盛,难以获得。上周,在发布财报后,英伟达告诉投资者,其最新硬件的需求将超出供应,预计会持续几个季度,进一步加剧紧张局势。
英伟达的最大客户——如亚马逊云服务、微软的Azure和谷歌的云平台等云服务提供商——都渴望减少对英伟达芯片的依赖,甚至取而代之。三家公司都在研发自己的硅片,但亚马逊作为最大规模的租赁计算能力供应商,迄今为止已部署了最多的芯片。
在许多方面,亚马逊有着成为AI芯片巨头的理想条件。十五年前,亚马逊发明了云计算业务,随后逐步构建了支撑这一业务的基础设施。随着时间的推移,它逐步减少对一系列传统厂商的依赖,包括英特尔,并将许多数据中心的服务器和网络交换机拆除,换成了定制的硬件。然后,十年前,詹姆斯·汉密尔顿(James Hamilton),一位具有非凡时机把握感的高级副总裁兼杰出工程师,成功说服杰夫·贝佐斯开始做芯片。
1.“我们能够生产出一款能够与他们正面竞争的产品”
当OpenAI的ChatGPT在两年前开启了生成式AI的时代时,亚马逊普遍被认为是一个后来者,措手不及,拼命追赶。到目前为止,亚马逊还没有推出一款被认为能与ChatGPT或Claude(由Anthropic公司打造,亚马逊已投资80亿美元)竞争的大型语言模型。但亚马逊所建立的云计算基础设施——定制的服务器、交换机、芯片——让首席执行官安迪·贾西(Andy Jassy)有机会开设一个AI超市,向那些希望使用由其他公司构建的模型的企业提供工具,并向那些训练自己AI服务的公司提供芯片。
在业内打拼近四十年的汉密尔顿深知,要将亚马逊的芯片雄心推向下一个阶段并不容易。设计可靠的AI硬件非常困难。也许更难的是编写能够让这些芯片对广泛客户群体有用的软件。英伟达的硬件几乎可以顺利处理任何人工智能任务。该公司正在向包括亚马逊在内的客户交付下一代芯片,并且已经开始宣传一年后将取代它们的产品。行业观察人士表示,亚马逊短期内不太可能取代英伟达的市场地位。
尽管如此,汉密尔顿和亚马逊的工程团队一次又一次地展示了他们在紧张预算下解决重大技术问题的能力。“英伟达是一家非常非常有能力的公司,做出了卓越的工作,因此他们将长期为许多客户提供良好的解决方案,”汉密尔顿说。“我们坚信,我们可以生产出一款能够与他们正面竞争的产品。”
汉密尔顿于2009年加入亚马逊,之前曾在国际商业机器公司(IBM)和微软工作。他是业内的标志性人物,起初在家乡加拿大修理豪华汽车,并从一艘54英尺的船上通勤到工作。汉密尔顿的加入恰逢其时。亚马逊云服务(AWS)在三年前刚刚推出,独自创造了云计算服务这个行业。AWS很快开始产生大量现金,帮助亚马逊进行一系列重大投资。
当时,亚马逊建造了自己的数据中心,但使用的是其他公司制造的服务器和网络交换机。汉密尔顿领导了一项将这些设备替换为定制硬件的努力,首先从服务器开始。由于亚马逊将购买数百万台服务器,汉密尔顿认为,通过根据不断扩大的数据中心队伍定制设备,并去掉AWS不需要的功能,他能够降低成本并提高效率。
这项工作取得了足够的成功,以至于当时负责AWS的贾西问公司还能设计哪些硬件。汉密尔顿建议做芯片,因为芯片已经承担了越来越多原本由其他组件处理的任务。他还推荐亚马逊采用能源高效的Arm架构,这种架构驱动着智能手机,他押注于该技术的普及和开发者对其日益熟悉,认为这可以帮助亚马逊取代长期以来为全球服务器机房提供动力的英特尔芯片。
“所有的路径都指向我们拥有一个半导体设计团队,”他在2013年8月提交给贝佐斯的提案中写道。一个月后,喜欢在下午晚些时候与初创公司和客户共度时光的汉密尔顿,在西雅图的弗吉尼亚酒店酒吧与纳费阿·布沙拉(Nafea Bshara)喝酒。
布沙拉是以色列的芯片行业老兵,2000年代初期移居旧金山湾区,他共同创办了Annapurna Labs,并以尼泊尔的安娜普尔纳山命名。(布沙拉和他的联合创始人原本打算在创办初创公司之前登顶这座山,但投资者迫切希望他们开始工作,结果他们没有完成这次旅行。)
这家低调的初创公司致力于为数据中心开发芯片,而当时大多数行业的重点仍集中在移动电话上。亚马逊从Annapurna公司订购了处理器,并在两年后以约3.5亿美元的价格收购了这家初创公司。这是一个具有远见的举措。
布沙拉和汉密尔顿从小规模开始,这反映了他们对实用工程的共同欣赏。当时,每个数据中心的服务器都分配了一部分计算能力用于运行控制、安全和网络功能。Annapurna和亚马逊的工程师们开发了一种名为Nitro的卡片,它完全从服务器中抽取了这些功能,使客户能够使用服务器的全部计算能力。
随后,Annapurna将汉密尔顿的Arm通用处理器投入生产。这个名为Graviton的产品比竞争对手英特尔的设备便宜,使得亚马逊成为了台湾半导体制造公司(台积电)十大客户之一。台积电是全球许多行业的芯片制造巨头。
到那时,亚马逊高层已经对Annapurna有了充分的信心,认为它即便在不熟悉的领域也能表现出色。“你会发现很多公司在CPU上非常出色,或在网络方面非常强,”布沙拉说。“但很少能找到在两个、三个或四个不同领域都很强的团队。”
在Graviton开发过程中,贾西问汉密尔顿亚马逊还能自己做些什么。2016年底,Annapurna指派了四名工程师去探索开发机器学习芯片。这是另一个及时的赌注:几个月后,一组谷歌的研究人员发布了一篇开创性的论文,提出了一种能够使生成式AI成为可能的过程。
这篇名为《Attention is All You Need》的论文介绍了 Transformer,这是一种帮助人工智能系统识别最重要训练数据的软件设计原理。它成为了背后方法的基础,支持能够做出推测的系统,分析词语之间的关系,并从零开始创作文本。
大约在这个时候,拉米·辛诺正在奥斯汀的Arm公司工作,并在辅导他的学龄儿子参加机器人比赛。团队开发了一款应用,利用机器学习算法分析照片,检测夏季时定期污染奥斯汀湖泊的藻类爆发。辛诺对孩子们仅用一台笔记本电脑就能做到这些感到印象深刻,他意识到一场革命即将到来。2019年,他加入了亚马逊,帮助领导其AI芯片制造工作。
2.亚马逊的漫漫造芯路
辛诺团队的第一款芯片旨在支持“推理”(inference)——当计算机被训练去识别数据中的模式并做出预测时,例如判断一封邮件是否是垃圾邮件。这个名为Inferentia的组件于2019年12月开始在亚马逊的数据中心投入使用,后来还用于帮助Alexa语音助手回答命令。亚马逊的第二款AI芯片Trainium1,针对那些希望训练机器学习模型的公司。工程师们还将该芯片与其他组件重新打包,使其更适合进行推理,成为Inferentia2。
最初,亚马逊的AI芯片需求较为缓慢,这意味着客户可以立即获得芯片,而无需等待数周才能得到大量的英伟达硬件。寻求快速加入生成式AI革命的日本公司抓住了这一机会。例如,电子制造商Ricoh公司获得了帮助,将以英语数据训练的大型语言模型转换为日语。
据Gadi Hutt所说,需求随后有所增加。Hutt是Annapurna的早期员工之一,目前与使用亚马逊芯片的公司合作。“我没有Trainium芯片的闲置容量在那等着客户,”他说。“它们都已经被使用了。”
Trainium2是该公司第三代人工智能芯片。根据业内的看法,这是一个生死攸关的时刻。要么第三次尝试能够以足够的销量证明投资是值得的,要么它失败,公司就得找到新的道路。“我从未见过任何产品偏离三代法则,”数据分析软件供应商Databricks公司AI工作的负责人、芯片行业资深人士Naveen Rao说。
Databricks在10月同意将Trainium作为与AWS达成的一项广泛协议的一部分。目前,该公司的AI工具主要运行在英伟达硬件上。计划是用Trainium取代部分英伟达的工作,而亚马逊表示,Trainium可以以更低的价格提供30%的更好性能,Rao表示。“这归结为纯粹的经济学和可用性,”Rao说。“这就是战场所在。”
Trainium1由八个芯片组成,这些芯片紧挨在一起,放置在一个深钢盒子里,允许它们的热量有效散发。AWS租给客户的完整设备由两个这样的阵列组成。每个设备盒子里都充满了线缆,整齐地包裹在网状材料中。
对于Trainium2,亚马逊表示其性能是上一代的四倍,内存是上一代的三倍,工程师们舍弃了大多数电缆,而是通过印刷电路板传输电信号。同时,亚马逊将每个机箱中的芯片数量减少到两个,这样工程师在进行维护时,所拆卸的其他组件就更少了。Sinno开始将数据中心视为一台巨型计算机,这是英伟达首席执行官黄仁勋鼓励整个行业采纳的方法。“简化是关键,而且这也确实让我们能够更快推进,”Sinno说。
亚马逊没有等到台积电生产出可用版本的Trainium2才开始测试新设计的工作方式。相反,工程师们将两颗上一代芯片固定在板上,给他们时间开发控制软件并测试电气干扰。这在半导体行业中,相当于一边飞行一边造飞机。
亚马逊已经开始运输Trainium2,并计划将其连接成最多10万个芯片的集群,送往俄亥俄州等数据中心。更广泛的推广将面向亚马逊的主要数据中心枢纽。
该公司计划大约每18个月推出一款新芯片,部分原因是减少硬件需要外包到其他供应商的次数。在车床对面的实验室里,亚马逊使用示波器来测试卡片和芯片,检查是否有接头问题或设计缺陷。
辛诺暗示,未来版本的工作已经在进行中:在另一个实验室里,那里有刺耳的风扇在为测试单元降温,四对管道悬挂在天花板上。它们现在被封闭,但已经准备好应对未来当AWS芯片产生过多热量,仅靠风扇无法散热的情况。
3.芯片界的“军备竞赛”
除了亚马逊,其他公司也在推动极限。
英伟达将其芯片的需求形容为“疯狂”,并正在努力每年推出一款新芯片,这一节奏虽然导致即将发布的Blackwell产品出现生产问题,但也将迫使整个行业加速跟进。同时,亚马逊的两个最大云计算竞争对手也在加速推进自己的芯片计划。
谷歌大约十年前开始打造AI芯片,以加速其搜索产品背后的机器学习工作。后来,谷歌将该产品提供给云计算客户,包括像Anthropic、Cohere和Midjourney这样的AI初创公司。该芯片的最新版本预计明年将广泛上市。今年4月,谷歌推出了首款中央处理单元(CPU),这款产品类似于亚马逊的Graviton。“通用计算是一个巨大的机会,”谷歌副总裁Amin Vahdat说,他领导着从事芯片和其他基础设施工作的工程团队。他表示,最终目标是让AI和通用计算芯片无缝协同工作。
微软比AWS和谷歌稍晚进入数据中心芯片领域,直到去年年底才宣布推出名为Maia的AI加速器和名为Cobalt的CPU。像亚马逊一样,微软意识到通过定制硬件来为其数据中心提供更好的性能。
Rani Borkar是微软副总裁,曾在英特尔工作近三十年,她领导了这一努力。就在本月,她的团队为微软的产品组合增加了两款新产品:一款安全芯片和一款数据处理单元,用于加速CPU和图形处理单元(GPU)之间的数据流动,类似英伟达的产品。微软一直在内部测试这款AI芯片,并且已经开始将其与英伟达的芯片一起使用,来运行让客户能够创建应用程序的OpenAI模型服务。
虽然微软的努力被认为比亚马逊的版本落后几代,但Borkar表示,公司对目前的成果感到满意,并且正在开发更新版本的芯片。“不管别人是从哪里起步的,”她说,“我关注的重点是:客户需要什么?因为你可以领先,但如果你做出的产品是客户不需要的,那对硅芯片的投资是如此庞大,我可不想成为那个故事中的一章。”
尽管三家云巨头都在竞争,但他们一致称赞英伟达,并在新芯片(如Blackwell)发布时争夺市场位置。
Amazon的Trainium2如果能够承担更多公司的内部AI工作,并为一些大型AWS客户提供项目支持,那么它可能会被视为成功。这将帮助释放Amazon宝贵的高端英伟达芯片资源,供专业AI公司使用。为了让Trainium2成为一个毫无争议的成功,工程师们必须确保软件的正确性——这可不是一件容易的事。与英伟达的全面工具套件相比,亚马逊的软件Neuron SDK仍处于起步阶段,后者的工具使客户能够轻松地将机器学习项目投入使用,而无需大量定制。
即使公司能在没有太多麻烦的情况下将项目迁移到Amazon,验证转换过程中是否出现问题可能会占用工程师数百小时的时间,一位亚马逊和芯片行业的资深人士表示(他要求匿名以便自由发言)。一位AWS合作伙伴的高管(也要求匿名)表示,尽管亚马逊在使其通用Graviton芯片易于使用方面取得了成功,但AI硬件的潜在用户仍然面临更多的复杂性。
“英伟达主导的原因很简单,”Gartner公司副总裁Chirag Dekate说,他跟踪人工智能技术。“你不必担心这些细节。”
因此,亚马逊求助于合作伙伴——鼓励大客户和合作伙伴在与AWS签订新协议或续签时使用其芯片。其目的是让前沿团队充分利用这些硅芯片,找出改进的空间。
其中一家公司是Databricks,虽然他们预见到可能需要几周或几个月才能将其投入使用,但他们愿意付出努力,希望能够实现成本节约。人工智能初创公司Anthropic(OpenAI的竞争对手)去年接受了亚马逊40亿美元的资金,并同意将Trainium芯片用于未来的开发,尽管它们也使用英伟达和谷歌的产品。上周五,Anthropic宣布又获得了亚马逊40亿美元的资金,并加深了合作关系。
“我们特别看重亚马逊Trainium芯片的性价比,”Anthropic的首席计算官Tom Brown表示。“我们正在稳步扩大其在越来越广泛的工作负载中的使用。”
Hamilton表示,Anthropic正在帮助亚马逊迅速改进。但他也清楚地认识到挑战,并表示“必须”开发出优秀的软件,使客户能够轻松使用AWS芯片。“如果你不能弥合复杂性差距,”他说,“你将会失败。”