早在超算时代,清华大学高性能计算研究中心便一直是解决算力需求相关软件问题的行家。
“目前 AI Infra 赛道几家国内厂商中,只有我们有过十万台服务器的超大规模国产算力集群的使用和调优经验。”汤雄超向 AI 科技评论介绍道。
而“大规模”会是算力发展最难解的“题”——
从汤雄超观察来看,当前业内多有提及的不同品牌 GPU 异构混训,是芯片产能不足现状下的一种妥协,未来智算中心可能会回归同一型号 GPU 的架构以获得更高的效率,AI 大模型训练核心归根到底还是落点在大规模算力系统本身。
基于前述思考,去年年底,这支来自清华大学计算机系的团队创办了清程极智,汤雄超博士担任公司 CEO,翟季冬教授为公司首席科学家。
除了 AI 训练面临的挑战,成立之初,清程极智也看到了推理侧的机会。
在一段时期内,训推一体机是业内较为流行的产品形态。但在汤雄超的观点中,训推一体机是很难满足未来的 AI 业务全部需求的。
论及其中原因,他认为,“训练和推理两种业务对算力系统的需求区别较大,很难想象出有一个比较小的一体机能够承载训练的业务,现在大模型的预训练可能都是万卡以上的规模。”所以,清程极智选择为推理业务量身定制相应的软硬一体化算力系统。
同时,通过云端算力提供 MaaS 大模型推理服务也是清程极智选择的路径之一。
至于这条路会否和通用大模型公司产生竞争,汤雄超认为,大模型应用一定会起量,一个足够大的市场可以容下好几家同一细分领域里的厂商。
他还告诉 AI 科技评论,公司成立这半年多来,在商业化方面,清程极智已经陆续和多家芯片厂商、算力中心、AI 应用开发商以及基础模型预训练厂商达成了商业合作。
值得一提的是,云厂商也是清程极智的合作对象之一。
在汤雄超看来,云厂商过去解决的问题跟现在要解决的问题并不完全相同,甚至是相对的两个方向——
云厂商过往聚焦于资源池化和共享,而现阶段要解决的问题主要是分布式的资源合并,这方面的经验市场上还较为稀缺,而这恰好是清程极智团队的强项所在。
这段时日,汤雄超对国内芯片厂商的差异化也深有体会,他认为,从过往智能手机和新能源汽车两个行业的发展规律来看,之后国产芯片市场会有一定程度的收敛,但不会完全集中到一家,并且国产芯片的性价比超越海外产品也只是时间问题。
以下是 AI 科技评论与汤雄超的访谈实录,作者进行了不改原意的编辑整理:
壁垒在超大规模集群调优
AI 科技评论:你们为什么会想要在去年年底瞄准 AI Infra 这个赛道去创业呢?有什么契机吗?
汤雄超:去年底出来做 AI Infra 创业是因为我们认为这个领域和时机比较好。主要契机要从我们团队背景说起,目前我们团队 40 多人中 80% 都是研发,核心的技术负责人几乎都来自清华计算机系。清华大学高性能计算研究中心一直以来是做超算的,主要解决算力需求大的问题,之前主要服务于天气预报、气候模拟、石油勘探等。
随着人工智能的发展,我们发现 AI 相关问题也逐渐需要超大计算量解决,刚好我们做超算的经验都可以用来解决 AI 算力系统的问题,再加上我们非常看好 AI,长期来看,我们相信 AI 会给社会带来较大影响。所以从商业的角度上来说,我们做的事情还算比较有想象空间,这也很契合我们的技术背景。另外,也刚好赶上美国对中国的芯片制裁,从社会价值的角度上来讲,我们作为清华人去做面向国产算力系统的事情也非常有意义。
总得来说,我们当时选择这个赛道创业,是非常坚定看好市场机会的,并非拿着锤子找钉子。基本逻辑在于,AI 对算力的需求越来越大是共识,国内的智能算力从英伟达转向国产基本上也是确定的,而在这样一个一边增长一边转换的过程中,显然我们需要在国产算力生态上做很多事情,这也会带来许多商业上的机会。
汤雄超在清程极智办公室 受访者供图
AI 科技评论:国内目前有好几家厂商在布局 AI Infra 这条赛道,你们的壁垒体现在哪方面?
汤雄超:这个赛道上有很多友商,对我们而言并非负面因素。首先,市场大到足够容下很多家厂商,其次,既然有这么多人入局,也说明大家对这个领域的认可。
我们其中一个显著的技术壁垒在于超大规模集群的调优能力,现实中,这可能直接意味着算力中心是否用得起来,本身我们团队在大规模集群上面做过很多事情,所以我们和其他家的差异性优势,最核心的还是在于这一点,这件事是非常难做的。
据我所知,目前国内 AI Infra 赛道的厂商中,除了我们,没有团队有过十万台服务器的超大规模国产算力集群的使用和调优经验,哪怕是万卡、十万卡这样的超大规模训练,现在能做的团队都不多,所以这是我们非常重要的技术优势。实际上,除了各家都在做的推理优化之外,我们是可以做训练的,而且是超大规模的训练。
AI 科技评论:清程目前主要和哪些厂商有合作呢?
汤雄超:我们公司聚焦在 AI Infra,就是算力的基础软件系统,大家一般会把 Infra 比喻成一座桥梁,一端是硬件,另外一端是上层应用,我们做的就是把这两端连接起来,让大模型更好地运行在芯片上。
我们的客户也就主要来自于这两端,一方面是算力侧,包括芯片厂商以及算力中心的建设方和运营方。整体上来说,国产算力系统的软件生态和国外成熟的系统相比,还是有一定的差距的,我们做的就是帮芯片厂商补齐短板,真正发挥硬件的性能。
算力中心也是类似的情况,现在大模型所需要的算力规模很大,真正地把万卡甚至十万卡规模的集群用起来并不简单,我们帮算力中心把超大规模的集群给利用起来,从商业角度上来说,能够提升算力中心的市场竞争力,从社会角度来讲,相当于提升算力资产的整体利用率,减少资产闲置现象。
对于 AI 应用侧,我们提供的价值整体上来说就是大家比较熟悉的提速降本。目前我们用大模型回答问题或者画图,耗时还比较长,这给 AI 应用落地带来较大障碍。我们通过高性能的大模型推理引擎,在同样的硬件平台上把模型运行得更快,在一些情况下响应速度可能会有近百倍的提升。这样可以把模型运行时间缩短,一方面,用户体验可以改善,另外一方面,时间缩短了,AI 应用消耗的算力也会变少,算力成本随之降低。
另外,我们也有做基座大模型预训练的客户群体,模型预训练本身算力消耗大、周期长,通常训练一个大模型需要几个月时间和几千万的预算。我们能把训练的性能提升百分之几十,从而降低百万或千万的算力开销。一方面,大模型训练周期缩短后,模型迭代速度会变得更快。另一方面,按一般原本算力费用千万级来说,节省 50% 的算力成本会是非常大的一个数字。整体来看,现在我们的客户主要是芯片厂商、算力中心、上层做 AI 应用的公司以及做模型预训练的厂商。
AI 科技评论:和云厂会有合作或者竞争吗?
汤雄超:我们跟云厂相比是有自身优势的。在一些比较传统的文本类的大模型的预训练上,我们也和国内的云厂商有合作。
他们也有自己的团队,找我们合作本质上还是因为云厂过去要解决的问题跟现在要解决问题并不相同。之前他们也维护大规模的集群,但更多的是从资源池化和共享的角度去做的,就相当于把一块 GPU 卡切成很多份,同时服务很多请求和用户。
现在反过来我们要做的是合并的事情,就是让 1 万块或者 10 万块 GPU 共同为一个用户服务,去解决同一个问题。这部分经验即使在大厂内也是相当稀缺的,因为国内本来做大集群并行计算的人一直都比较少,再叠加上国产芯片问题,相关的储备就更稀缺了。
AI 科技评论:你们目前的融资情况如何了?
汤雄超:今年初我们完成了第一轮融资,预计年内会再完成新一轮。
围绕推理引擎的核心布局
AI 科技评论:模型推理目前也是清程的一个重点,你们的 MaaS 平台具体有什么样的布局?
汤雄超:我们 MaaS 平台首期推出的是文本对话,这方面除了像一般的 MaaS 平台推出的 10B 以内的模型之外,我们也提供了免费试用的 72B 的国产中文大模型,可以把它运行在国产算力平台上,成本控制到较低的水平,比用英伟达算力便宜很多,所以我们现在可以提供免费试用。
近期也上线了一个文生图的功能,完全兼容了国际上流行的 ComfyUI 界面,适合设计师这样的专业群体。
后续可能还会再加入其他的大模型服务能力,因为有很多模型的推理工作被广泛需要,AI 应用的市场发展很快,多模态需求也在变多,后续会上架视频生成等服务。
清程极智 MaaS 平台
AI 科技评论:您会觉得这种 MaaS 平台卖大模型 API 的方式,实际上是在和通用大模型公司竞争吗?
汤雄超:我觉得现在整个大模型行业内很难说做的业务是完全区分开的,有竞争是正常的,并且行业里玩家足够多,说明大家都觉得这样的事情值得做,也证明这个赛道的重要性是得到玩家以及背后投资人认可的。另外,我个人坚信大模型应用一定会起量,在一个足够大的市场里面,其实在同一个细分市场里面可以容得下好几家厂商。
对我们来说, MaaS 平台可以让更多有需求的人使用到清程的推理加速能力。并且,我们并不是要在 MaaS 模式上去击败通用大模型巨头公司,清程的能力也不仅局限在 MaaS 平台上,我们的产品交付形式也是很多样的,也包括一体机、推理引擎软件以及其他一些解决方案的交付。
AI 科技评论:您说的一体机是指训推一体机吗?
汤雄超:我们做的不是训练推理一体机。推理一体机我们是有做的,但训练的话,本质上看,它的算力需求不适合这种产品形态。
在我看来,训练和推理两种业务间的区别较大,很难想象出有一个比较小的一体机能够承载大的训练业务,现在大模型的预训练可能都是万卡以上的规模,目前只能在大规模的智算集群上完成。
我们做的是推理一体机,就是客户有需求,我们可以去帮他们选配一些高性价比的硬件,因为我们和很多国产芯片有合作,有时候比客户更清楚他们不同的大模型推理需求比较适合哪一款芯片的,我们也发现有不少客户在算力使用上不合理,比如,有的客户买了 A100,优势却发挥不出来,因为 A100 其实更适合拿来做训练,而不是推理。
AI 科技评论:你们 MaaS 平台上能选择英伟达和国产两种卡加速 Qwen2-72B-Instruct 的推理,主要是哪些卡?
汤雄超:英伟达我们是比较常规的推理卡,国产卡用的也是和英伟达推理卡对标的型号,用下来发现还不错。
虽然我们现在平台上写了英伟达和国产算力,但是从后续的规划来说,我们会把这部分隐藏掉。因为根据数据实测,在经过清程的系统优化后,国产算力能接近英伟达的性能,某些场景下还会更好些,所以之后我们也没必要特意区分算力平台,这本身也符合我们公司兼容和赋能多样化算力基座的想法。
AI 科技评论:清程的官网好像还有几个和推理引擎有关的服务暂未上线。
汤雄超:我们现在还在初创期,大部分精力都集中在研发和商业化上,官网整体上有些滞后性。推理引擎是我们比较核心的内容,我们推理引擎完全是自研的,它是一个高性能的系统软件,可以降低模型推理的延迟,或者提高模型的吞吐率,总之是提升性能,并且可以支持包括英伟达和国产在内的不同芯片。
因为市面上大部分开源框架都是基于英伟达做的,如果要用国产芯片的话,要么自己移植,要么就不用,这对用户来说比较难受。我们所提供的是可以兼容多款国产芯片的自研推理引擎,这是我们的软件,然后基于这个软件就是做 MaaS 平台和推理一体机。
具体来说就是,如果客户已经有机器了,那买我们的软件就行,如果没有机器,则有两种选择,一种是直接用我们的 MaaS 平台,另外一种不上云,要私有化部署的,我们提供推理一体机。
智算中心最终会回归同构
AI 科技评论:现在国产芯片厂商很多,异构混训的概念也在业内热议,你们想过做这块吗?
汤雄超:我们也在做异构混训的工作,但我们在过去的工作中观察到,采用不同品牌不同加速卡的 GPU 异构方案的集群,整体上来说效率和性价比没有比采用单一型号 GPU 的同构集群好,混合训练很难发挥硬件的底层算力性能。
从商业的角度来说,我倾向于认为异构混训是目前国产芯片产能不足情况下的妥协,过去的 HPC 行业,超算中心发展了这么多年,我们并没有观察到哪个超算集群会在里面放不同型号的加速卡,当然可以说全世界有成百上千个超算集群,各个集群用不同的卡,这个是可行的,但是每个集群内部通常都是同一款。
所以,我认为随着国产芯片产能的提升,最终智算中心也会回归到以往比较偏同构的基础架构里,因为单一方式可能是最高效的解决方案。整体上来说,在目前大规模并行训练的大课题下,异构混训比较容易解决,更难的问题还是落在大规模本身上。打个比方,10 张英伟达和 10 张华为混训同 10 万张英伟达训练相比,肯定是后者更难实现。
AI 科技评论:所以您觉得之后国内的 GPU 芯片厂商是有机会从分散走向整合的?
汤雄超:我们和国内好几家芯片厂商都有合作,包括沐曦、燧原、天数、摩尔线程等等,每一家都有相对的优势,各家芯片迭代速度也都很快,从长期来看的话,我认为可能会出现一定程度的集中和收敛,不过,国内可能也不太会出现美国市场那种一家独大的情况。
因为中美国市场确实是不一样的,从历史上发生过的其他行业故事来看,比如智能手机和新能源汽车,美国的手机和汽车其实就是那两家,国内确实都不是一家独大。中国市场从人口基数上来说会更大,也更有多样性,未来可能芯片厂商会有一定程度的收敛,但不一定会收敛到一家,最终还是会有好几家。
AI 科技评论:现阶段您在国内有比较看好的芯片厂商吗?
汤雄超:目前有两三家比较好,但国内芯片迭代很快,之后也不确定哪家性能会更强。
AI 科技评论:目前来看,您觉得 GPU 是算力最优解吗?
汤雄超:这个问题要看怎样去定义。GPU 已经发展到现阶段,能够沿着 GPU 已经开拓出来的道路往前,没必要再去走一条新路。但是说到底也还是要看上层应用的需求,包括后续 AI 算法的发展,如果 AI 算法发生了比较大的变革,以至于 GPU 架构不再适应其中的算力需求,那可能还会有新的芯片架构脱颖而出,成为新标准。
以前大家觉得手机这样的嵌入式设备的处理器是一个非常小的市场,但随着移动设备的发展,会发现之前占主流的 x86 架构慢慢地就被 Arm 架构赶上来。算力硬件本质上服务于上层应用需求,如果应用发生巨变的话,底层的算力也会受到影响。不过,从当前的大模型这种形态来说,我还是认可 GPU 或类 GPU 架构是较好的。
AI 科技评论:现在海外也涌现了许多做专用芯片的厂商,但国内还是以瞄准 GPU 为主,专用芯片少有几家,您觉得对于国内来说,专用芯片会是机会吗?
汤雄超:我认为专用芯片跟通用芯片的抉择国内外是一致的。当每一种上层应用变得非常重要的时候,大家比较直觉的做法就是去做专用芯片,这样可以在应用上取得优越的性能以及功耗方面的改进。但是因为上层应用迭代很快,大家也会希望有通用芯片能够保证不仅现在能用,未来也能用,两个路线很难说谁完全取代谁。整体上,我认为国内会存在专用与通用并存的情况。
AI 科技评论:CUDA 是英伟达的护城河,现在也有很多观点认为它其实是“泥潭式”的,您觉得就国内而言怎样去找到自己的护城河呢?
汤雄超:“泥潭式”护城河这个形容是准确的。而我觉得国内要找到护城河,还是得从国产算力的角度出发找寻突破点,要完全 Copy 一份 CUDA,打造 CUDA 2.0 非常困难,有没有必要去做也要打一个问号。因为我们做算力系统的建设本身是为了支撑上层应用的需求,如果为了复制 CUDA 而去复制是没有必要的,也不知道收益如何,但根据上层应用的需求去针对性做补全和提升的话,我们不需要把整套 CUDA 生态照搬过来,这种情况下有的放矢,要做的事情会少很多,国产算力系统也会有一些突破机会。