GPU

全球最强GPU订单曝光，TOP 1微软一年买爆近50万块！xAI晒首批GB200提前过年
谁是今年英伟达GPU的最大买家？就在刚刚，答案曝光——TOP 1竟是微软。今天，这张对比图在网上被转疯了。
理论
- 973
- 0
新智元12月19日
GPU 资源调度：k8s-device-plugin 知多少？
Hello folks，我是 Luga，今天我们来聊一下人工智能应用场景 - 基于 k8s-device-plugin 机制所实现的 GPU . 资源动态调度。近几年，随着大数据和人工智能技术的迅猛发展，AI 应用场景日益丰富，成为推动产业升级的重要驱动力。
理论
- 972
- 0
Luga Lee12月17日
一文读懂 GPU 资源动态调度
Hello folks，我是 Luga，今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的 GPU 资源动态调度。众所周知，随着人工智能、深度学习以及高性能计算(HPC)的快速发展，GPU (Graphics Processing . Unit)已经成为现代计算体系中的核心计算资源之一。
理论
- 974
- 0
架构驿站12月16日
如何为深度学习选择优秀 GPU ？
Hello folks，我是 Luga，今天我们继续来聊一下人工智能生态相关技术 - 用于加速构建 AI 核心算力的 GPU 硬件技术。众所周知，对于绝大多数的深度学习模型的训练，尤其是参数规模较为庞大的模型，其往往是整个开发流程中最耗时、资源消耗最大的环节。在传统的 CPU .
理论
- 976
- 0
架构驿站11月25日
英特尔演示资料显示未来将推 AI 芯片 Jaguar Shores
"Jaguar Shores" 很可能是英特尔计划 2025 年推出的 AI GPU 芯片 "Falcon Shores" 的后继产品。
应用
- 982
- 0
溯波（实习）11月20日
钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%
现阶段这一方案的前景如何？我们尚不得而知。未来 GPU 的发展方向，居然和钻石有关系？
应用
- 975
- 0
机器之心11月18日
微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%
科技媒体 marktechpost 昨日（10 月 18 日）发布博文，报道称微软公司开源了 bitnet.cpp，这是一个能够直接在 CPU 上运行、超高效的 1-bit 大语言模型（LLM）推理框架。用户通过 bitnet.cpp 框架，不需要借助 GPU，也能在本地设备上运行具有 1000 亿参数的大语言模型，实现 6.17 倍的速度提升，且能耗可以降低 82.2%。传统大语言模型通常需要庞…
应用
- 43
- 0
故渊10月19日
中国算力大会，联想重磅发布两款明星算力新品
9月27日，为期3天的2024中国算力大会正式拉开帷幕。在大会异构智算产业生态联盟技术论坛上，联想集团正式发布新一代AI服务器联想问天WA7880a G3和联想AIPod应用部署解决方案两款重磅产品和解决方案。联想AI基础设施“一横五纵”的战略版图进一步丰富和完善。联想问天WA7880a G3是针对AI大模型训练推出的新一代AI服务器，具备多元算力、灵活配置和节能高效三大特点。它也是国内首款支持O…
应用
- 22
- 0
新闻助手9月27日
AI 江湖“饭局”：马斯克、埃里森晚宴上向黄仁勋求购英伟达 GPU
甲骨文创始人拉里・埃里森在公司最新财报电话会议上透露了一段轶事，他表示，自己曾与特斯拉 CEO 埃隆・马斯克一起，亲自向英伟达 CEO 黄仁勋求购最新的 AI GPU。在位于帕洛阿尔托的 Nobu 餐厅，埃里森和马斯克向黄仁勋恳求向他们供应英伟达的最新 GPU，“我们向他乞求，请卖给我们，不，多卖给我们，越多越好，我们都需要，拜托了。”埃里森回忆道，“最后事情进展顺利，起作用了。”这次晚餐显然非常…
应用
- 22
- 0
远洋9月14日
马斯克 xAI 上线全球最大 AI 训练集群：122 天搭建 10 万张英伟达 H100，未来几月将翻倍至 20 万张
埃隆・马斯克（Elon Musk）昨日（9 月 3 日）在 X 平台发布推文，宣布 xAI 打造的超级 AI 训练集群 Colossus 已经正式上线。马斯克在推文中表示，超级 AI 训练集群 Colossus 搭建用时 122 天，共有 10 万张英伟达 H100 GPU 加速卡，而在未来几个月将再翻倍增加 10 万张 GPU，其中 5 万张为更先进的 H200。英伟达数据中心官方账号随后转发马…
应用
- 23
- 0
故渊9月4日
Meta 构建分布式 RoCEv2 网络：探索串联数万片 GPU，训练千亿参数级 AI 模型
Meta 公司于 8 月 5 日发布博文，表示为了满足大规模分布式 AI 训练对网络的需求，构建了基于 RoCEv2 协议的大规模 AI 网络。RoCEv2 的全称是 RDMA Over Converged Ethernet version 2，是一种节点间通信传输方式，用于大部分人工智能容量。Meta 公司已成功扩展了 RoCE 网络，从原型发展到部署了众多集群，每个集群可容纳数千个 GPU。这…
应用
- 50
- 0
故渊8月7日
图灵奖得主 LeCun 加盟 AI 芯片黑马 Groq，估值 28 亿美元挑战英伟达
英伟达又双叒迎来强劲挑战者了。成立于 2016 年的初创公司 Groq 在最新一轮融资中筹集了 6.4 亿美元，由 BlackRock Inc. 基金领投，并得到了思科和三星投资部门的支持。目前，Groq 的估值已经达到 28 亿美元。公司创始人 Jonathan Ross 曾在谷歌从事 TPU 芯片的开发，而 Groq 目前的顶梁柱 LPU 也是专门用于加速 AI 基础模型，尤其是 LLM。Ro…
应用
- 16
- 0
远洋8月6日
小扎自曝砸重金训 Meta Llama 4 模型：24 万块 GPU 齐发力，预计 2025 年发布
Llama 3.1 刚发布不久，Llama 4 已完全投入训练中。这几天，小扎在二季度财报会上称，Meta 将用 Llama 3 的十倍计算量，训练下一代多模态 Llama 4，预计在 2025 年发布。这笔账单，老黄又成为最大赢家十倍计算量，是什么概念？要知道，Llama 3 是在两个拥有 24,000 块 GPU 集群完成训练。也就是说，Llama 4 训练要用 24 万块 GPU。那么，Me…
应用
- 16
- 0
汪淼8月5日
Llama3.1 训练平均 3 小时故障一次，H100 万卡集群好脆弱，气温波动都会影响吞吐量
每 3 个小时 1 次、平均 1 天 8 次，Llama 3.1 405B 预训练老出故障，H100 是罪魁祸首？最近有人从 Meta 发布的 92 页超长 Llama 3.1 论文中发现了华点：Llama 3.1 在为期 54 天的预训练期间，经历了共 466 次任务中断。其中只有 47 次是计划内的，419 次纯属意外，意外中 78% 已确认或怀疑是硬件问题导致。而且 GPU 问题最严重，占了…
应用
- 35
- 0
清源7月29日
Meta 训练 Llama 3 遭遇频繁故障：16384 块 H100 GPU 训练集群每 3 小时“罢工”一次
Meta 发布的一份研究报告显示，其用于训练 4050 亿参数模型 Llama 3 的 16384 个英伟达 H100 显卡集群在 54 天内出现了 419 次意外故障，平均每三小时就有一次。其中，一半以上的故障是由显卡或其搭载的高带宽内存（HBM3）引起的。由于系统规模巨大且任务高度同步，单个显卡故障可能导致整个训练任务中断，需要重新开始。尽管如此，Meta 团队还是保持了 90% 以上的有效训…
应用
- 22
- 0
远洋7月28日
马斯克的“世界最强大 AI 数据中心”目前由 14 台移动发电机供电，引环保担忧
埃隆・马斯克的孟菲斯超级计算集群（Memphis Supercluster）已上线，据马斯克介绍称，该集群在单个 RDMA fabric 上使用 10 万张液冷 H100，是“世界上最强大的 AI 训练集群”。如此庞大的算力自然需要惊人的电力供应，每个 H100 GPU 至少消耗 700 瓦电力，这意味着整个数据中心同时运行需要超过 70 兆瓦的电力，这还不包括其他服务器、网络和冷却设备的耗电量。…
应用
- 8
- 0
远洋7月24日
第四范式发布先知AIOS 5.1，升级支持GPU资源池化功能
今天，第四范式先知AIOS 5.1版本正式发布。该版本新增GPU资源池化（vGPU）能力，实现对硬件集群平台化管理、算力资源的按需分配和快速调度，最多节省80%的硬件成本，提高GPU综合利用率多达5-10倍。第四范式先知AIOS 5是行业大模型开发及管理平台。平台以提升企业核心竞争力为目标，在支持接入企业各类模态数据的基础上，提供大模型训练、精调等低门槛建模工具、科学家创新服务体系、北极星策略管理…
应用
- 7
- 0
新闻助手7月23日
投资巨头高盛质疑 AI 投资回报：巨额投入能否换来光明未来？
全球知名投行高盛 (Goldman Sachs) 近期对人工智能 (AI) 投资的回报率提出了质疑。尽管各大企业和投资者正斥资数十亿美元用于人工智能研发，但高盛担忧如此巨额的投入能否真正带来丰厚回报。图源 Pexels目前，我们使用的 LLM 大型语言模型（例如 GPT-4o）训练成本就高达数亿美元，下一代模型的训练成本更是预计将飙升至 10 亿美元。风投巨头红杉资本 (Sequoia Capit…
应用
- 16
- 0
远洋7月14日
暴涨 8050%，富国银行预估 2030 年 AI 产业用电激增至 652 TWh
富国银行（Wells Fargo）预测今年 AI 用电需求为 8 TWh，而到 2030 年将激增到 652 TWh，将增长 8050%。富国银行表示 AI 用电主要用于训练 AI 模型方面，在 2026 年将达到 40 TWh，到 2030 年将达到 402 TWh；此外 AI 推理耗电量将会在 21 世纪 20 年代末出现快速增长。如果单纯看这个数字可能没有直观的感觉，那么这里再附上一组数据：…
应用
- 29
- 0
故渊7月9日
AI 泡沫加剧，红杉资本：年产值 6000 亿美元才够领取硬件开支
红杉资本（Sequoia Capital）的分析师大卫・卡恩（David Cahn）发布报告，觉得 AI 产业泡沫家居，年产值超过 6000 亿美元，才够领取数据中心、加速 GPU 卡等 AI 基础设施费用。英伟达 2023 年数据中心硬件支出达到 475 亿美元（其中大部分硬件是用于 AI 和 HPC 应用的算计 GPU）。此外 AWS、google、Meta、微软等公司在 2023 年也在 A…
应用
- 30
- 0
故渊7月6日
全球 AI 面临 6000 亿美元难题，人工智能泡沫正在接近临界点
【新智元导读】AI 基础设施的巨额投资，和实际的 AI 生态系统实际支出之间，差距已经到了不可思议的地步。曾经全球 AI 面临的 2000 亿美元难题，往常已经翻成了 6000 亿美元。现在，业内关于 AI 模型支出的质疑声，已经越来越大。动辄投入几万亿美元打造基础设施，跟部分国家的 GDP 不相上下，然而从 AI 模型中得到的回报，究竟能有几何？在 2023 年 9 月，来自红杉资源的 Davi…
AI
- 24
- 0
清源7月4日
13瓦功耗处理10亿参数，接近大脑效率，消除LLM中的矩阵乘法来颠覆AI现状
编辑 | 萝卜皮通常，矩阵乘法 (MatMul) 在大型言语模型（LLM）总体盘算成本中占据主导地位。随着 LLM 扩展到更大的嵌入维度和上下文长度，这方面的成本只会增加。加州大学、LuxiTech 和苏州大学的钻研职员声称开发出一种新格式，通过消除过程中的矩阵乘法来更有效地运行人工智能言语模型。这从根本上重新设计了目前由 GPU 芯片加速的神经网络操作方式。钻研职员描述了如何在不使用 MatMu…
理论
- 36
- 0
ScienceAI7月4日
全美 TOP 5 机器进修博士：痛心，实验室 H100 数量为 0！同实验室博士用 GPU 得靠抢
【新智元导读】全美 TOP 5 的机器进修博士痛心发帖自曝，自己实验室里 H100 数目是 0！这也引起了 ML 社区的全球网友大讨论。显然，相比普林斯顿、哈佛这样动辄三四百块 H100 的 GPU 大户，更常见的是 GPU 短缺的「穷人」。同一个实验室的博士，甚至时常会出现需要争抢 GPU 的情况。全美 TOP 5 高校的机器进修博士，实验室却连一块 H100 都没有？最近，这位网友在 redd…
AI
- 9
- 0
清源6月29日
首个类 Sora 开源复现方案，Open Sora 可在英伟达 RTX 3090 显卡上 AI 生成视频：最高 4 秒 240P
作为全球首个类 Sora（OpenAI 的文本生成视频模型）开源复现方案，Open-Sora 可以在英伟达 RTX 3090 GPU 上鉴于文本生成视频，最高可以生成 240P 分辨率、时长最长 4 秒的视频。处理 AI 恣意的 GPU 云服务提供商 Backprop 揭示了鉴于 Open-Sora V1.2 的 AI 环境，揭示 4 个鉴于提示词生成的视频。Backprop 表示：“在 RTX …
AI
- 43
- 0
故渊6月28日