H100

Llama3.1 训练平均 3 小时故障一次，H100 万卡集群好脆弱，气温波动都会影响吞吐量
每 3 个小时 1 次、平均 1 天 8 次，Llama 3.1 405B 预训练老出故障，H100 是罪魁祸首？最近有人从 Meta 发布的 92 页超长 Llama 3.1 论文中发现了华点：Llama 3.1 在为期 54 天的预训练期间，经历了共 466 次任务中断。其中只有 47 次是计划内的，419 次纯属意外，意外中 78% 已确认或怀疑是硬件问题导致。而且 GPU 问题最严重，占了…
应用
- 34
- 0
清源7月29日
马斯克：xAI 训练 Grok-3 大模型用了 10 万块英伟达 H100 芯片
马斯克已经宣布其人工智能初创公司 xAI 的大说话模型 Grok-2 将于 8 月推出，将带来更先进的 AI 功能。虽然 Grok-2 还没亮相，但马斯克已经开始为其 Grok-3 举行造势。马斯克表示，训练 AI 聊天机器人需要数据集，而且从现有数据中清除大型说话模型 (LMM) 的工作量很大。他还谈到了 OpenAI 模型输出训练的几个问题。他透露 xAI 的 Grok-3 用了 10 万块英…
AI
- 6
- 0
问舟7月2日
全美 TOP 5 机器进修博士：痛心，实验室 H100 数量为 0！同实验室博士用 GPU 得靠抢
【新智元导读】全美 TOP 5 的机器进修博士痛心发帖自曝，自己实验室里 H100 数目是 0！这也引起了 ML 社区的全球网友大讨论。显然，相比普林斯顿、哈佛这样动辄三四百块 H100 的 GPU 大户，更常见的是 GPU 短缺的「穷人」。同一个实验室的博士，甚至时常会出现需要争抢 GPU 的情况。全美 TOP 5 高校的机器进修博士，实验室却连一块 H100 都没有？最近，这位网友在 redd…
AI
- 7
- 0
清源6月29日
英伟达优先向 X 供应 AI 芯片，特斯拉“靠边”？马斯克称后者芯片多到“吃灰”
感谢据 CNBC 援用英伟达高级员工内部邮件消息称，马斯克向股东“夸张”了特斯拉的芯片洽购情况，还将原本计划留给特斯拉的大量 AI 芯片转移给 X（推特）平台。报导称，马斯克命令英伟达允许 X 公司“插队”，使其拥有高于特斯拉的优先性，从而使特斯拉收到价值超 5 亿美元（IT之家备注：当前约 36.25 亿元人民币）处理器的时间推迟了数月，或将导致特斯拉建立超级计算机进度耽搁。报导还提到了一份去年…
AI
- 11
- 0
清源6月5日
英伟达 H100 AI GPU 短缺减缓，交货时间从 3-4 个月降至 2-3 个月
曾几何时，英伟达用于人工智能计算的 H100 GPU 供不应求。然而据 Digitimes 报道，台积电的台湾地区总经理 Terence Liao 表示，过去几个月英伟达 H100 的交货守候时间已经大幅收缩，从最后的 3-4 个月降至暂时的 2-3 个月（8-12 周）。服务器代工厂商也透露，相比 2023 年几乎无法买到英伟达 H100 的情况，暂时提供瓶颈在逐步减缓。尽管交货守候时间有所收缩…
AI
- 7
- 0
远洋4月11日
马斯克预测 AI 在两年内能超越最聪慧的人类
感谢特斯拉 CEO 埃隆・马斯克（Elon Musk）周一预测，AI 在明年或 2026 年就能超越最聪慧的人类。马斯克当地时间周一在社交媒体平台 X（以前称为推特）语音空间上接受了挪威主权财富基金首席执行官 Nicolai Tangen 的采访。当被问及 AGI（通用人工智能）的发展时间表时，马斯克表示，如果你将 AGI 定义为比最聪慧的人更聪慧，我想可能是明年，或者两年内。AGI 为 Arti…
AI
- 7
- 0
沛霖（实习）4月9日
仅次于 Meta，马斯克透露特斯拉囤积的英伟达 H100 芯片数量
埃隆・马斯克麾下的特斯拉和其神秘的以人工智能为核心的公司 xAI，储藏了大量的英伟达 H100 系列芯片。特斯拉意欲借此攻克主动驾驭的最终难题 ——L5 级主动驾驭，而 xAI 则肩负着实现马斯克的“最终真相人工智能”愿景。X 平台用户“The Technology Brother”最近发布消息称，Meta 公司已经囤积了全球最多的 H100 GPU，数量达到惊人的 35 万块。然而，马斯克对该排…
AI
- 5
- 0
远洋4月9日
英伟达 AI 芯片 H200 开始供货，机能相比 H100 提升 60%-90%
感谢据日本经济新闻今日报道，英伟达的尖端图像处理半导体（GPU）H200 现已开始供货。H200 为面向 AI 领域的半导体，机能超过当前主打的 H100。根据英伟达方面公布的机能评测结果，以 Meta 公司旗下大说话模型 Llama 2 处理速率为例，H200 相比于 H100，生成式 AI 导出答案的处理速率最高提高了 45％。市场调研机构 Omdia 曾表示，2022 年英伟达在 AI 半导…
AI
- 8
- 0
清源3月28日
机构预估 OpenAI 部署文生视频模型 Sora 必要 72 万片英伟达 H100：价值 216 亿美元
市场调查机构 Factorial Funds 近日发布报告，认为 OpenAI 部署文本转视频模型 Sora，在峰值期必要 72 万片英伟达 H100 AI 加速卡。如果按照每片英伟达 H100 AI 加速卡 3 万美元成本计算，72 万片必要 216 亿美元（IT之家备注：当前约 1561.68 亿元人民币）。而这仅仅只是 H100 加速卡的成本，想要运行必然耗费大量的电力，每片 H100 功耗…
AI
- 3
- 0
故渊3月27日
消息称 Meta 正积极开展 AI 能人战：候选人无需面试，小扎亲自“摇人”
据 The Information 北京时间今晚报导，为了在争夺人工智能研究职员方面取得更大优势，Meta 正在采取一系列“非常规举动”，进一步加大了这场 AI 能人战的火药味。图源 Pexels报导称，这一系列的举动包括在不面试候选人的情况下向他们提供工作机会等，更为此前威胁离职的员工增加薪资 —— 在此之前，Meta 的“长期做法”是不加薪。另据两位查看过 Meta 相关邮件的人士透露，公司首…
AI
- 10
- 0
清源3月25日
Meta 发言人确认将率先使用英伟达旗舰 AI 芯片 B200，预估往年晚些时候收到
感谢Meta 发言人于美东时间 19 日告诉路透社，公司预计往年晚些时候收到英伟达最新旗舰 AI 芯片 ——B200，且为英伟达的首批出货。英伟达的首席财务官 Colette Kress 则告诉金融分析师，“我们认为（产品）将在往年晚些时候上市”，但他也表示，新 GPU 的出货量要到 2025 年才会增加。据悉，社媒巨头 Meta 是英伟达最大的客户之一，该公司曾购买了数十万块上一代加速卡（H10…
AI
- 7
- 0
清源3月20日
调查：AMD AI 芯片 Instinct MI300X 吸引大量用户弃用英伟达
根据最近的一项调查，大量人工智能专业人士正计划从英伟达转向采纳 AMD Instinct MI300X GPU。TensorWave 联合创始人 Jeff Tatarchuk 透露，他们进行了一项独立调查，涵盖 82 名工程师和人工智能专业人士。其中，约有 50% 的受访者表示他们对 AMD Instinct MI300X GPU 充满信心，因为比拟于英伟达的 H100 系列产品，MI300X 不…
AI
- 47
- 0
远洋3月10日
12nm战胜4nm｜权威AI测试MLPerf放榜，单卡算力超H100！
2020年9月9日，寰球权威AI基准评测MLPerf Inference v2.1榜单公布结果。MLPerf是业内公认的国际权威AI功能基准评测，由图灵奖得主大卫·帕特森（David Patterson）联合谷歌、英伟达、英特尔、Facebook、浪潮等寰球AI领军企业，以及来自哈佛大学、斯坦福大学等学术机构的研究人员创立。该测评以其标准庄重、测评严谨而著称，英伟达、高通等国际AI芯片企业均携最…
AI
- 12
- 0
墨芯人工智能22年10月12日
英伟达新架构发布，AI芯片上限提升了九倍，20块带宽就等于全球互联网
黄仁勋：芯片每代性能都翻倍，而且下个「TensorFlow」级 AI 工具可是我英伟达出的。
AI
- 16
- 0
机器之心22年3月23日