集群
如何使用Kubernetes合理调整GPU和CPU资源以训练和推理AI模型
译者 | 李睿审校 | 重楼如今,人工智能服务的迅速崛起创造了对计算资源的巨大需求,而如何有效管理这些资源成为一项关键挑战。 虽然使用Kubernetes运行人工智能工作负载已经取得了长足的进步,但基于动态需求优化调度仍然是一个亟待改进的领域。 在全球范围内,许多组织面临与GPU集群的成本和可用性相关的限制,并且通常依赖于这些计算集群来进行推理工作负载和持续的模型训练和微调。
19 天打造“最强”AI 训练集群,黄仁勋称马斯克像超人
在 10 月 13 日播出的采访中,英伟达 CEO 黄仁勋谈及马斯克旗下人工智能公司 xAI 在短时间内建成 AI 训练集群 Colossus,称赞马斯克及团队难以置信、像超人一样。黄仁勋称,“xAI 在 19 天内完成了其他人需要一年才能完成的事情,以前从未有人做到过。那是超人才能做到的,世界上只有一个人能做到这一点,那就是埃隆・马斯克,他在工程、建筑和大型系统以及资源调配方面的理解是独一无二的。
SiFive 推出 Intelligence XM 系列 RISC-V 架构 AI 数据流处理器
RISC-V 设计企业 SiFive 当地时间昨日宣布推出 Intelligence XM 系列 AI 数据流处理器。这一系列属于 SiFive 的 Intelligence 智能处理器 IP 核家族,该家族还包括 X390 等产品。SiFive 表示 Intelligence XM 系列搭载同时具有扩展性和高效能的 AI 计算引擎,并延续了 SiFive IP 产品在计算密集型应用中优秀的每瓦性能表现。AI在线了解到,SiFive Intelligence XM 系列的基本单元是 XM 集群,每个 XM 集群包含
国内运营商最大单集群智算中心在哈尔滨投用,可训练万亿参数大模型
感谢综合央视新闻、《黑龙江日报》消息,8 月 30 日,国内运营商最大单集群智算中心 —— 中国移动智算中心(哈尔滨),建设完成并正式投产使用。该智算中心具有单集群算力规模最大、国产化网络设备组网规模最大等特点。单集群智算中心把所有 AI 加速卡打造成 1 个集群,用以支持千万亿级参数的大模型进行训练。AI在线从报道中获悉,中国移动智算中心(哈尔滨)实现 AI 芯片国产化率 100%,首次通过国产网络设备探索 1.8 万张智算卡单集群部署规模上限,可提供 6.9EFLOPS(每秒 690 亿亿次半精度浮点运算)智能
马斯克展示特斯拉新超级计算机“Cortex”,仍未完全准备就绪
特斯拉 CEO 埃隆・马斯克今日展示了该公司的新超级计算机“Cortex”,其有望成为全球最大的超级计算机之一,但目前尚未完全准备就绪。马斯克曾表示,这个项目对特斯拉至关重要。近年来,他将特斯拉的重点转向了人工智能,人工智能需要强大的计算能力。AI在线注意到,今年早些时候,有报道称特斯拉在得州超级工厂的新扩建项目中遇到了问题,该扩建项目旨在容纳一台新的巨型超级计算机,用于训练特斯拉的 AI。当时消息称,特斯拉计划在 8 月前建成一个 100 兆瓦的集群,以配合其后来推迟的机器人出租车的亮相。马斯克取消了特斯拉的其他
特斯拉得州超级计算集群命名“Cortex”,拥有 10 万颗英伟达芯片
埃隆・马斯克 (Elon Musk) 周末在参观了最近建成的得克萨斯州超级计算集群后,透露了该工厂的名称。周六,马斯克在 X 上写道,得州超级工厂的超级计算集群被命名为“Cortex”,并指出他刚刚完成了新设施的演练。“Cortex”拥有约 10 万颗英伟达 H100 和 H200 芯片,用于训练全自动驾驶(FSD)和人形机器人擎天柱(Optimus)的神经网络。AI在线注意到,马斯克此前还详细介绍了 Cortex 超级计算集群的巨大冷却需求,并解释说该集群今年将需要约 130 MW 的电力,未来 18 个月内更是
重庆两江新区与吉利汽车集团、旷视科技签署战略合作协议,共建 AI 智行开放平台
感谢据吉利控股集团今日消息,7 月 23 日下午,重庆两江新区与吉利汽车集团、AI 公司旷视科技签署战略合作协议。根据合作协议,三方将依托重庆制造业基础和产业优势,结合旷视科技在人工智能领域关键核心技术,以及吉利汽车整车研发、制造优势,共同建设 AI 智行开放平台,构建“AI 车 机器人”产业创新发展模式。AI在线注意到,重庆目前正着力打造“33618”现代制造业集群体系,具体来说,包括两个“3”、1 个“6”、1 个“18”:两个“3”,分别是 3 大万亿级主导产业集群,包括智能网联新能源汽车、新一代电子
Meta 新建两座数据中心集群:内含超 4.9 万块英伟达 H100 GPU,专门训练 Llama3
感谢Meta 公司当地时间 12 日通过官方新闻稿公布了两座新的数据中心集群,该公司正希望通过英伟达的 GPU,在以 AI 为重点的开发中脱颖而出。据悉,这两座数据中心的唯一目的,是在消费者特定应用领域(IT之家注:包含声音或图像识别)中进行 AI 研究和大语言模型的开发,每个集群都包含了 24576 块英伟达 H100 AI GPU,将用于自家大语言模型 Llama 3 的训练。两座新建的数据中心集群都具有 400Gbps 互联功能,其中一个集群采用了 Meta 基于 Arista 7800 自主开发的 Fabr
「还是谷歌好」,离职创业一年,我才发现训练大模型有这么多坑
Karpathy:中肯的,一针见血的。如何在不到一年的时间里创办一家公司、筹集资金、购买芯片,并搭建出追赶 Gemini pro/GPT 3.5 的 LLM?很多人都对构建基础架构和训练大语言模型和多模态模型感到好奇,但真正走完「从零开始」这一流程的人很少。我们普遍认为,储备技术人才是前提,掌握核心算法是关键,但实际上,工程实践中冒出来的挑战,也实在令人头疼。一年前,乘着大模型的热潮,Yi Tay 离开了工作 3 年多的谷歌,参与创办了一家名为 Reka 的公司并担任首席科学家,主攻大型语言模型。在谷歌时,Yi T
- 1