亚马逊 AWS AI 训练芯片 Trainium2 实例全面可用,公布下代 3nm Trainium3

亚马逊 AWS 还推出了聚合 64 颗 Trainium2 芯片的 UltraServer 大型 AI 训练系统,并计划同 Anthropic 构建超大规模 AI 计算集群。

亚马逊 AWS 今日宣布,基于其内部团队所开发 AI 训练芯片 Trainium2 的 Trn2 实例广泛可用,并推出了 Trn2 UltraServer 大型 AI 训练系统,同时还发布了下代更先进的 3nm 制程 Trainium3 芯片。

亚马逊 AWS AI 训练芯片 Trainium2 实例全面可用,公布下代 3nm Trainium3

▲ Trainium2 芯片

单个 Trn2 实例包含 16 颗 Trainium2 芯片,各芯片间采用超高速高带宽低延迟 NeuronLink 互联,可提供 20.8 petaflops 的峰值算力,适合数 B 参数大小模型的训练和部署。

亚马逊宣称 Trn2 实例与当前一代基于 GPU 的 EC2 P5e 和 P5en 实例相比性价比提高了 30-40%

亚马逊 AWS AI 训练芯片 Trainium2 实例全面可用,公布下代 3nm Trainium3

▲ Trn2 实例服务器机架

而更大规模的 Trn2 UltraServer 则用 NeuronLink 聚合了 4 台 Trn2 服务器,总共包含 64 颗 Trainium2 芯片,算力峰值进一步线性扩展到 83.2 petaflops,能满足目前世界上最大规模模型的训练和部署需求

亚马逊 AWS AI 训练芯片 Trainium2 实例全面可用,公布下代 3nm Trainium3

▲ Trn2 UltraServer

亚马逊还正与其投资的 AI 模型企业 Anthropic 合作,共同构建一个名为 Project Rainier 的 EC2 UltraCluster 巨型计算集群,该集群包含大量 Trn2 UltraServer,总共拥有数十万颗 Trainium2 芯片

AI在线获悉,该集群完成后有望成为迄今为止公开的最大 AI 计算集群,整体算力达 Anthropic 目前用于训练最先进 Claude 模型所需量的 5 倍以上。

亚马逊 AWS 还公布了下代 Trainium3 AI 训练芯片,这也是 AWS 首款采用 3nm 制程的芯片产品。亚马逊表示基于 Trainium3 的 UltraServer 性能可达 Trn2 UltraServer 的 4 倍,而首批基于 Trainium3 的实例预计将于 2025 年底推出。

相关资讯

亚马逊云科技展示Claude 3大模型能力,生成式AI落地正在加速

上周日,亚马逊云科技宣布 Mistral AI 的 Mistral Large 模型在Amazon Bedrock上正式可用。随着知名 AI 初创公司 Mistral AI、Anthropic 的前沿的大语言模型(LLM)陆续登陆 Amazon Bedrock,人们在构建生成式 AI 应用程序时,已经有了一系列先进模型的选择。

亚马逊 AWS 计划未来 15 年投资 1480 亿美元建设数据中心,满足人工智能等需求

感谢据彭博社报道,亚马逊 AWS 计划未来 15 年投资 1480 亿美元(IT之家备注:当前约 1.07 万亿元人民币),在全球各地建设数据中心,满足人工智能等领域对云服务的需求。除了在现有的弗吉尼亚州和俄勒冈州扩建数据中心设施外,亚马逊 AWS 还计划进军美国其他州和沙特阿拉伯、马来西亚等海外国家。根据研究公司 Dell'Oro Group 的数据,在亚马逊整体削减成本的背景下,AWS 云科技 2023 年度的数据中心资本支出首次出现下降。不过近来多位亚马逊高管表示今年起将在数据中心方向扩张规模,以满足客户在人

亚马逊 AI 版图新变数,15 年老将 Matt Wood 官宣离职

科技媒体 GeekWire 于 10 月 9 日发布博文,报道称 Amazon Web Services(AWS)副总裁马特・伍德(Matt Wood)即将离职,目前已在亚马逊工作 15 年。伍德于本周三在其领英(LinkedIn)账号上发布动态,宣布他将从亚马逊离职,亚马逊发言人随后向该媒体证实该消息,但没有透露继任者人选。伍德在领英动态中写道:“我很高兴能在我的下一个角色中继续为更多组织带来重新创造、转型和未来(更多内容敬请期待)”,暗示他即将公布新的岗位角色。