Meta 新建两座数据中心集群:内含超 4.9 万块英伟达 H100 GPU,专门训练 Llama3

感谢Meta 公司当地时间 12 日通过官方新闻稿公布了两座新的数据中心集群,该公司正希望通过英伟达的 GPU,在以 AI 为重点的开发中脱颖而出。据悉,这两座数据中心的唯一目的,是在消费者特定应用领域(IT之家注:包含声音或图像识别)中进行 AI 研究和大语言模型的开发,每个集群都包含了 24576 块英伟达 H100 AI GPU,将用于自家大语言模型 Llama 3 的训练。两座新建的数据中心集群都具有 400Gbps 互联功能,其中一个集群采用了 Meta 基于 Arista 7800 自主开发的 Fabr
感谢Meta 公司当地时间 12 日通过官方新闻稿公布了两座新的数据中心集群,该公司正希望通过英伟达的 GPU,在以 AI 为重点的开发中脱颖而出。

据悉,这两座数据中心的唯一目的,是在消费者特定应用领域(IT之家注:包含声音或图像识别)中进行 AI 研究和大语言模型的开发,每个集群都包含了 24576 块英伟达 H100 AI GPU,将用于自家大语言模型 Llama 3 的训练。

Meta 新建两座数据中心集群:内含超 4.9 万块英伟达 H100 GPU,专门训练 Llama3

两座新建的数据中心集群都具有 400Gbps 互联功能,其中一个集群采用了 Meta 基于 Arista 7800 自主开发的 Fabric 解决方案,而另一个集群则采用了英伟达的 Quantum2 InfiniBand Fabric,以确保无缝互连体验。

此外,集群基于 Meta 自家的开放式 GPU Grand Teton AI 平台,可通过提高主机到 GPU 的带宽和计算能力,充分利用现代加速器的功能。

Meta 官方表示,这些集群的高性能网络结构的效率及关键存储决策、配合每个集群中的 H100 GPU,能够为更大、更复杂的模型提供支持,为通用人工智能产品开发、AI 研究的进步铺路。

据IT之家1 月报道,Meta 首席执行官扎克伯格宣布公司正在建设庞大的基础设施。“预估到今年年底,我们将拥有大约 35 万片英伟达 H100 加速卡,如果算上其它 GPU 的话,其计算能力相当于 60 万片 H100。”

相关阅读:

《扎克伯格谈 Meta 愿景:元宇宙 AI 两手抓,预估年底有 35 万片英伟达 H100》

相关资讯

「还是谷歌好」,离职创业一年,我才发现训练大模型有这么多坑

Karpathy:中肯的,一针见血的。如何在不到一年的时间里创办一家公司、筹集资金、购买芯片,并搭建出追赶 Gemini pro/GPT 3.5 的 LLM?很多人都对构建基础架构和训练大语言模型和多模态模型感到好奇,但真正走完「从零开始」这一流程的人很少。我们普遍认为,储备技术人才是前提,掌握核心算法是关键,但实际上,工程实践中冒出来的挑战,也实在令人头疼。一年前,乘着大模型的热潮,Yi Tay 离开了工作 3 年多的谷歌,参与创办了一家名为 Reka 的公司并担任首席科学家,主攻大型语言模型。在谷歌时,Yi T

特斯拉得州超级计算集群命名“Cortex”,拥有 10 万颗英伟达芯片

埃隆・马斯克 (Elon Musk) 周末在参观了最近建成的得克萨斯州超级计算集群后,透露了该工厂的名称。周六,马斯克在 X 上写道,得州超级工厂的超级计算集群被命名为“Cortex”,并指出他刚刚完成了新设施的演练。“Cortex”拥有约 10 万颗英伟达 H100 和 H200 芯片,用于训练全自动驾驶(FSD)和人形机器人擎天柱(Optimus)的神经网络。AI在线注意到,马斯克此前还详细介绍了 Cortex 超级计算集群的巨大冷却需求,并解释说该集群今年将需要约 130 MW 的电力,未来 18 个月内更是

重庆两江新区与吉利汽车集团、旷视科技签署战略合作协议,共建 AI 智行开放平台

感谢据吉利控股集团今日消息,7 月 23 日下午,重庆两江新区与吉利汽车集团、AI 公司旷视科技签署战略合作协议。根据合作协议,三方将依托重庆制造业基础和产业优势,结合旷视科技在人工智能领域关键核心技术,以及吉利汽车整车研发、制造优势,共同建设 AI 智行开放平台,构建“AI 车 机器人”产业创新发展模式。AI在线注意到,重庆目前正着力打造“33618”现代制造业集群体系,具体来说,包括两个“3”、1 个“6”、1 个“18”:两个“3”,分别是 3 大万亿级主导产业集群,包括智能网联新能源汽车、新一代电子