作者丨朱可轩
编辑丨陈彩娴
近日,“源神”Deepseek 密集开源了一系列代码库,包括FlashMLA、DeepEP、DeepGEMM、DualPipe 等项目及 3FS 系统,几乎实现了对 AI Infra 底层计算、网络、存储的全覆盖式优化,这对于 AI Infra 而言也能提供许多有价值的参考。
当前,国内 AI Infra 领域公司围绕 DeepSeek 带来的一系列启发,也正在思考下一步大模型训推优化更好的解决方案,驿心科技便是其中之一。
上周 DeepSeek 开源 3FS 等一系列组件,充分说明了从存储到网络往 GPU 里面传输数据的能力是 AI 训练和推理中最重要的问题,这也正是驿心科技想解决的核心技术问题。
据了解,驿心科技于 2023 年 9 月由前旷视科技创始合伙人吴文昊成立,致力于从基础架构做研发,基于 GPU 服务器本地存储与通用以太网络,提供与传统智算基于 RDMA 的存储网络、单独部署商业训练存储同等的能力,大幅降低模型落地成本与加速部署,方便后续在 DeepSeek 等通用模型层面做优化,加速模型的运行效率。
值得注意的是,驿心所用的硬件完全是使用标准企业服务器以及标准网络,不需要任何的定制硬件、网络和软件。相比之下,过去 AI Infra 部署使用的传统高性能文件存储往往需要使用定制硬件服务器,特定网络交换,以及定制的操作系统内核和客户端。
换言之,驿心所提出的 AI Infra 整体解决方案效率更高、性价比更高。
重构之下的新机会
在常规视野中,AI Infra 包含供应链和云两层,但经过两年的 AGI 技术跃进,大模型逐渐成为基础设施的趋势已然明朗,许多观点认为模型甚至可能成为新的“OS”。
而在此之中,架构重构和供应链重构为 AI Infra 带来了创业空间。
架构方面,HPC、云和 AI 所需要的 Infra 均存在差异。首先,云的计算、网络和存储并非专门为 AI 或者 HPC 设计优化的,当中的不匹配会带来价值差:云围绕网络而生,通过 CPU、网络、存储资源的超卖解决利润问题,不能超卖则没有利润来源。
随着 AI Infra 的大规模兴起,这个价值点已经被重构了,因为 AI Infra 以 GPU 为中心,基于此,云大厂很难提供最为优化的底层 Infra,因为其还需要照顾到自身云原生应用的 Infra 需求。
此外,AI 虽然从 HPC 孵化而来,二者也都追求千卡万卡的规模,但从计算范式上看存在差距:本质在于 HPC 聚焦于做仿真、模拟世界的运行,追求确定性,需要高精度计算,而 AI 追求概率,需要的是 next token 够准确。
除技术架构外,国内芯片供应链重构也正在催生巨大的 AI Infra 机会,DeepSeek 无疑进一步推动了重构的发生。
在重构发生的同时,算力设备、能耗、机房空间和资金四大瓶颈也限制了 AI 算力的发展。对此,驿心依托 GPU 服务器本地存储与通用以太网络,构建了一套独具优势的一体化解决方案:
Tier 0 ← Tier 1
首先是 AI 集群一体化方案技术创新:驿心的 Tier-0 存储方案能有效利用 GPU 服务器内部存储,在搭建AI基础集群设施时,不需要再构建专属的存储集群以及存储网络,大幅削减了模型落地成本,显著加速了部署进程。
这不仅为企业和科研机构减轻了经济负担,更让先进的人工智能模型能够以更快的速度从理论走向实践,赋能千行百业。
其次在 AI 存储层面,驿心科技能支持多云多数据中心的全局文件系统(Global Namespace),让大模型的上载与更新完全无缝进行,提供统一的存储管理,让 AI 数据访问更高效。
不仅能够支持传统的文件和对象存储,也能利用好 DeepSeek 刚刚开源的 3FS 并行文件系统;具备智能的数据分层和缓存机制,可快速响应 AI 工作负载对数据的需求,提升训练和推理速度;有强大的数据安全与保护功能,保障 AI 数据的完整性和机密性;还能灵活扩展,轻松应对 AI 项目中不断增长的数据量需求。
在模型优化层面,驿心科技立足前沿,积极布局和拥抱开源生态。其解决方案为后续在 DeepSeek 等通用模型的优化工作提供了坚实基础,能够深度挖掘模型潜力,全方位加速模型运行效率,让人工智能真正做到快而准,助力客户在瞬息万变的市场竞争中抢占先机,引领行业发展新潮流。
驿心的解决方案无疑精准解决了目前 AI 训练与推理的主要痛点,这些痛点的洞察背后,实际上也与吴文昊横跨 HPC、云计算和 AI 的经历有一定关系:
从 1999 年清华本科毕业到美国,直到 2008 年去微软,这期间吴文昊一直在做 HPC,博士期间他主要做矩阵计算高性能实现与并行计算 MPI 协议研发,2008 年到微软之后负责微软 HPC 及微软云 Azure 产品管理,2011 年,吴文昊作为微软云 Azure 存储团队的 PM 负责了 Mellanox 进微软云 Azure 的项目。
随后的 2013 年,吴文昊离开微软,加入企业闪存市场“开拓者”Fusion-io,并于 2015 年回国加入旷视,此后一直聚集于 AI,一直到 2020 年正式离开旷视。
当前的驿心科技,已重点布局三个领域:
一是云和大模型,这部分客户的痛点主要在于自研、交付及客户服务成本高,继而需要专业存储、独立网络互联互通、多云数据同步与迁移,以及轻量级客户服务界面。
据吴文昊介绍,这方面驿心目前已经在国内头部互联网大厂完成了 技术验证,并且后者在全球只评测了两家,除驿心外还有一家美国存储公司。
二是AI研发类客户,涵盖汽车、自动驾驶,乃至机器人等垂直行业,其对 AI 和 GPU 存储能力需求不断攀升。这类企业利用 AI 技术最快完成行业内 AI 闭环,如自动驾驶,通常通过物理产品与 VLA 模型服务(视觉 + 语言 + 行动)实现 AI 闭环。
对此,就需要驿心提供专业 AI Infra 解决方案以及 VLA 模型与数据能力,来帮助他们构建垂直行业解决方案。目前,驿心也正加深同比亚迪电子的合作,继而提供针对AI研发类客户的一体机联合解决方案。
值得一提的是,吴文昊也将这部分客户描述为“AI 工厂”。在他看来,“从第一性原理出发,DeepSeek 的出现正说明了中国是真正的‘AI 工厂’。先不论 GPU 在哪生产,如果要打造 AI 工厂,最终供应链仍将来自中国。”
第三类客户为传统客户,包含半导体、制造、金融、能源等行业,它们需要安全、可扩展的存储解决方案。与 AI 研发类企业相比,这类企业 AI 需求增长较快,也在向 AI 领域发力,逐步迭代,完成商业闭环后有望成为 AI 研发类企业。
就此,驿心也通过与 OEM 厂商的合作,提供了针对细分行业及整合核心行业应用的存算一体机方案。
写在最后
开源和工程化的实现让 DeepSeek 在 AGI 之路上往前迈进了一步,同时,也揭示了中美两国在 AGI 软硬一体上的两种不同思路:
美国的 AGI 在 Infra 上追求平台化发展,而中国的 AGI 如 DeepSeek 更强调通过算法驱动的软硬一体优化来降低底层Infra 成本与提高效率。
驿心也是如此——在海外市场联合 HammerSpace 提供的存储方案更为水平化,而驿心则针对国内市场给出了更加垂直的一体化方案。吴文昊认为,正如 DeepSeek 从模型往下软硬一体整体优化的方法论所展示的巨大市场影响力,整个AI Infra的软硬一体优化与整合同样会存在诸多市场空间。
对此,驿心和 DeepSeek 的做法有什么异同点呢?
驿心创始人吴文昊告诉 AI 科技评论,“Necessity is the mother of invention。对于 LLM 这样的超级单一应用,对数据使用的 pattern 趋于简化统一,更易于针对这些 pattern 做优化。“
他认为,“从存储到网络往 GPU 里面传输数据的能力在 LLM 时代才是关键。因此,我们的 AI Infra 能力聚焦在存储与模型层面。”
再次,在存储层面,针对大模型训练和推理,通过 Tier-0 方案直接整合 GPU 服务器内部的存储空间。如无必要,勿增实体,这样直接整合不仅解决成本,机房空间,能耗等核心瓶颈问题,而且极大提升存储性能与数据带宽。
在模型优化层面,针对类似于 DeepSeek 这样的主流模型,驿心结合算力、网络、分布式 KV Cache 等能力,提高LLM集群的吞吐,同时通过可靠的 Tier-0/Tier-1 存储方案保证模型与数据的可靠性,同时支持模型的后训练与推理加速。
当前,驿心最新一轮融资即将 Close。之后在多模态和端侧方面,驿心将寻求更多突破:“未来 AI Infra 特别是 AI 存储将会迎来巨大增长,因为多模态的数据量较之语言模型要大几十上百倍。”吴文昊告诉 AI 科技评论。
另外,“端侧 AI 也需要经过两三个周期才能达到如今语言模型的水平,所以未来在端侧,数据生成、合成、存储使用也存在许多值得关注的问题,这当中也蕴藏着新的机遇。”