GPU

25万GPU,估值350亿美元冲刺IPO!财务定时炸弹,GenAI不祥之兆

美国云服务公司CoreWeave,已提交上市文件,即将IPO。 这是美国近期首个有意义的科技IPO,也是首个直接与AI热潮相关的IPO。 CoreWeave虽然有25万GPU,却频频受到质疑。

苏州发布加快发展AI芯片产业的若干措施||苏州市加快发展AI芯片产业的若干措施

《苏州市加快发展AI芯片产业的若干措施(征求意见稿)》公开征求意见。 其中提到,做强骨干核心企业。 聚焦GPU通用型芯片、ASIC专用型芯片、FPGA半定制化芯片、存算一体芯片、硅光芯片等重点方向,加大招商力度,加快引育一批带动性强的优质项目、头部企业,对重点项目在空间保障、场地建设、人才引进等方面予以综合支持。

狂投AI!英伟达风险投资激增,2024年出手49次,远超往年总和!

在人工智能革命的浪潮中,没有哪家公司比英伟达更具优势。 自从两年多前 ChatGPT 引爆市场以来,这家高性能 GPU 巨头的收入、盈利能力和现金储备一路飙升,其股价也随之水涨船高。 凭借日益增长的财富,英伟达正积极扩大其在人工智能领域的投资版图,尤其是在初创企业方面。

DeepSeek开源周第六天:极致推理优化系统,提高GPU计算效率

在人工智能(AI)技术快速发展的今天,DeepSeek 团队推出了其全新的 DeepSeek-V3/R1推理系统。 这一系统旨在通过更高的吞吐量和更低的延迟,推动 AGI(通用人工智能)的高效发展。 为了实现这一目标,DeepSeek 采用了跨节点专家并行(Expert Parallelism,EP)技术,显著提高了 GPU 的计算效率,并在降低延迟的同时,扩展了批处理规模。

尴尬!OpenAI CEO称内部GPU短缺,GPT-4.5发布将分阶段进行

日前,,OpenAI 首席执行官山姆・阿尔特曼(Sam Altman)在社交平台 X 上宣布,因公司 GPU 资源耗尽,最新模型 GPT-4.5的发布将被迫采取分阶段的方式。 阿尔特曼表示,GPT-4.5的规模巨大且成本高昂,因此需要 “成千上万” 的 GPU 才能支持更多的 ChatGPT 用户接入该模型。 据悉,GPT-4.5将首先向 ChatGPT Pro 的订阅用户开放,预计于本周四启动。

AI工厂中的炒作与现实

AI工厂作为新兴的数据中心概念,正引领着AI处理技术的革新,然而,其真正潜力如何?成本与挑战又有哪些?本文将深入探讨AI工厂的现状与未来。 你可能听说过“AI工厂”这个词,但它到底意味着什么?到目前为止,这个概念更多地被炒作而非明确定义,主要是由英伟达在推动。 该公司的愿景是数据中心里装满高端AI加速器,但这个愿景是现实可行的,还是只是战略营销手段?简而言之,AI工厂是专为AI处理而设计的专业化数据中心,而非用于托管数据库、文件存储、业务应用或网络服务等传统工作负载。

DeepSeek开源FlashMLA:Hopper GPU解码新标杆,测评大揭秘!

DeepSeek今天正式启动为期五天的开源成果发布计划,首个亮相的项目是FlashMLA。 这一开源项目将先进的MLA算法与GPU优化技术相结合,为大模型推理提供了一套高性能、低延迟的解码方案。 FlashMLA是一款专门为Hopper GPU(比如H800 SXM5)优化的高效MLA解码内核,旨在加速大模型的计算任务,尤其是在NVIDIA高端显卡上提升性能。

GPU 内存交换技术,知多少?

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的 GPU 内存交换机技术。 众所周知,LLMs 虽然在诸多任务中表现出色,但其庞大的模型体积和复杂的计算需求,使得高效利用 GPU 资源成为一大难题。 尤其是在高并发场景下,如何快速加载和卸载模型,避免 GPU 闲置,成为影响推理性能和成本的关键因素...一、GPU 设备资源调度的当前现状与困境随着AI 产业的持续落地,越来越多的公司开始将大型语言模型(LLMs)部署到生产环境,并确保能够大规模服务于用户。

DeepSeek+CodeWave实战,打通组织内落地DeepSeek的最后一公里

内容概要1、采购智能体应用效果演示2、DeepSeek大模型特征介绍3、DeepSeek和CodeWave如何产生化学反应4、0基础开发更智能采购管理系统智能体应用效果演示:开源 DeepSeek LLM 7B 和 67B 的 Base 和 Chat 模型2024年2月:开源 DeepSeek Coder 系列模型2024年2月:开源 DeepSeek Math 模型2024年3月:开源 DeepSeek-VL 系列模型2024年5月:开源 DeepSeek-V2 系列模型2024年7月:开源 DeepSeek-Coder-V2 系列模型2024年12月:开源 DeepSeek-V3 系列模型2025年1月:开源推理模型 DeepSeek-R1DeepSeek-V3和DeepSeek-R1差异图片技术特性差异:V3强调训练效率,能以较低GPU资源实现高性能;R1采用"强化学习优先"策略,先培养推理能力再优化语言流畅度核心能力及应用场景差异:V3通用型语言模型,擅长自然语言生成和多领域任务(如写作、多语言处理);R1专注于逻辑推理领域,强化数学解题、代码生成等复杂推理能力。 部署使用差异:API调用时,V3对应名称`deepseek-chat`,R1为`deepseek-reasoner`DeepSeek和CodeWave化学反应为什么需要整合DS到CodeWave主要有以下原因:打造个性化UI开发独立AI应用或已有应用智能化私域流量运营图片DeepSeek、Coze、CodeWave作用与关系CodeWave:通用应用开发平台,可以集成coze、dify、DeepSeek等开发通用AI应用,运行在私域上Coze、Dify:大语言应用开发平台,工作流编排,智能体应用开发,运行在公域上DeepSeek、豆包:大语言模型,是底层AI能力提供者        0基础教你开发更智能的采购管理系统准备工作注册CodeWave: Key:“采购管理系统”创建项目:图片在项目中引入DeepSeek连接器导入连接器:第一步,集成中心 - 导入连接器图片第二步,资产市场搜索DeepSeek连接器并导入:图片第三步,点击添加,在弹框中填入DeepSeek平台获得的API_Key:图片图片这样就导入完毕了!

xAI 新模型 Grok 3 逻辑推理能力获 OpenAI 创始人点赞

埃隆・马斯克的人工智能公司 xAI 于本周一发布了其最新的语言模型 Grok3,标志着该公司在人工智能领域的重要进展。 据马斯克介绍,新模型所需的计算能力是其前身的十倍,使用了位于孟菲斯的数据中心,配备了约20万块 GPU。 Grok3系列模型推出了多种变体,其中包括一个精简版,旨在提高速度但牺牲部分准确性。

“地表最强”Grok 3震撼登场,马斯克演示却“小翻车”,网友调侃:加上擎天柱才是AGI!几个月后还将开源!

出品 | 51CTO技术栈(微信号:blog51cto)编辑 | 伊风、言征跳票多次! Grok 3终于来了! 此前,DeepSeek创造的破圈奇迹,把硅谷的大模型公司全部笼罩在阴影之下。

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

人类史上首个在20万块GPU上训出的模型终于问世! 刚刚,马斯克带队三位xAI成员在线开启直播,官宣Grok-3全家桶——Grok-3(Beta)、Grok-3 mini首个推理模型Grok-3 Reasoning(Beta)、Grok-3 mini Reasoning:击败o3-mini/DeepSeek-R1,解锁推理时计算首个AI智能体「DeepSearch」:联网深入搜索一股OpenAI发布会的味道扑面而来据介绍,三代Grok的训练计算量竟是Grok-2的10倍,那么实际表现又如何? 世界最大超算集群Colossus已有20万块GPU:10万块GPU同步训练(第一阶段用时122天搭建);20万GPU(第二阶段用时92天)在多项基准测试中,Grok-3在数学(AIME 2024)、科学问答(GPQA)、编码(LCB)上刷新SOTA,大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。

​韩国政府计划采购10000个高性能 GPU,助力 AI 竞争

在全球人工智能(AI)竞争日益激烈的背景下,韩国政府近日宣布了一个重要计划。 代理总统崔相穆表示,政府将通过公私合作的方式,尽快采购10000个高性能 GPU,以助力国家 AI 计算中心的相关服务尽早启动。 这一举措标志着韩国在 AI 领域的雄心,旨在确保其在全球竞争中的领先地位。

没有数据、没有GPU的情况下怎么训练DeepSeek

春节期间,AI 界热闹非凡,到处都是关于 DeepSeek 的报道。 大家都知道,训练好的模型通常需要昂贵的专用 GPU,这对很多想试试微调技术的人来说,真是一道门槛。 好消息来了:你完全可以用免费的 Google Colab Notebook 来实现微调。

不到140块!李飞飞团队超低成本复刻DeepSeek R1推理!16张H100只训练了26分钟,与R1训练方法不同!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)太魔鬼了! 上周李飞飞团队发了篇新论文,再次降低了复刻o1能力的成本。 低到什么程度呢?

MetaDiff:用扩散模型重塑元学习,攻克小样本学习瓶颈!

一眼概览MetaDiff 提出了一种基于条件扩散模型的创新元学习方法,通过将梯度下降优化建模为去噪过程,有效提升了小样本学习(FSL)的性能,显著减少了内循环优化中的内存负担和梯度消失风险。 核心问题小样本学习的主要挑战在于:如何在训练数据有限的情况下快速适应新任务,而不引入过拟合或内存瓶颈。 传统基于梯度的元学习方法需要计算内循环路径上的二阶导数,导致内存消耗高和梯度消失问题,从而影响性能。

扎克伯格表示,2025年底Meta将拥有130万个用于AI的GPU

Meta 首席执行官马克・扎克伯格在最近的一篇 Facebook 帖子中宣布,公司计划在2025年大幅提升资本支出,旨在在激烈的人工智能竞争中保持领先地位。 扎克伯格表示,Meta 预计在2025年的资本支出将达到600亿到800亿美元,主要用于数据中心建设和扩充 AI 开发团队。 这一预算范围几乎是 Meta 去年350亿到400亿美元支出的两倍。

英国政府计划采购 10 万块 GPU,将公共部门 AI 算力提升 20 倍

英国首相斯塔默承诺,到 2030 年英国政府将采购多达 10 万块 GPU,这意味着英国主权 AI 算力将增加 20 倍,主要用于学术界和公共服务领域的 AI 应用。