“打开水龙头前,我们不需要知道水是从哪条河里来的。同理,未来我们用各种 AI 应用时,也不会知道它调用了哪些基座模型,用到了哪种加速卡的算力——这就是最好的 AI Native 基础设施。”
7月4日,在2024年世界人工智能大会AI基础设施论坛上,无问芯穹联合创始人兼CEO夏立雪发布了无问芯穹大规模模型的异构分布式混合训练系统,千卡异构混合训练集群算力利用率最高达到了97.6%。
同时,夏立雪宣布无问芯穹Infini-AI云平台已集成大模型异构千卡混训能力,是全球首个可进行单任务千卡规模异构芯片混合训练的平台,具备万卡扩展性,支持包括AMD、华为昇腾、天数智芯、沐曦、摩尔线程、NVIDIA六种异构芯片在内的大模型混合训练。7月起,通过试训申请的用户,已可在Infini-AI上一键发起700亿参数规模的大模型训练。
就在4个月前,无问芯穹Infini-AI大模型开发与服务云平台宣布首次公测,已有智谱AI、月之暗面、生数科技等大模型公司客户在Infini-AI上稳定使用异构算力,还有20余家AI Native应用创业公司在Infini-AI上持续调用各种预置模型API,使用无问芯穹提供的工具链开发自身业务模型。
夏立雪回顾,“上次我们证明了10多种异构芯片在Infini-AI上可被用于大模型推理,这次我们则是证明了异构算力在Infini-AI上可以被用来做大模型训练。”
打破生态竖井,让异构芯片转化为大算力
训练和推理是大模型生命周期中不可或缺的两个阶段,都需要强大的算力资源来支撑。然而,相比国际上模型层与芯片层呈现的相对集中的格局,中国的模型层与芯片层表现得“百花齐放”,尤其是在芯片层。
这些异构的芯片之间,存在着一种“生态竖井”,即,硬件生态系统封闭且互不兼容。用了A卡的开发者,无法轻易迁移至B卡上展开工作,也难以同时使用A卡和B卡完成大模型训练或推理。
这导致,如果一个算力集群中存在两种或以上的芯片,算力使用方会面临一系列技术挑战,比如不同硬件平台适配不同的软件栈和工具链,而某些任务更容易在特定类型的芯片上运行,开发者若要在异构芯片上从事生产,就需要为每种芯片定制和优化代码,这大大增加了开发和维护的复杂性。
据不完全统计,宣布拥有千卡规模的中国算力集群已不少于100个,出于诸多缘由,比如过度依赖单一硬件平台可能会使企业面临供应链风险,又比如国产芯片的性能快速提升为集群方提供了多种选择,绝大部分集群已经或正在从同构转向异构。
多种算力芯片被投入各地集群从事AI生产,但“生态竖井”的存在,让“多芯片”并不等于“大算力”,大多数企业和开发者望而却步。
要有效利用这些算力,既需要多元异构芯片纳管和调度的能力,能灵活按需使用到算力资源,还需要在异构算力与算法框架之间架设一个中间层,统一用户编程框架到算力调用的接口,屏蔽硬件细节。同时中间层的设计能兼容现有用户的编程习惯,并支持对未来的扩展。
构建适应多模型与多芯片格局的AI Native基础设施,无问芯穹的底层解法是,提供高效整合异构算力资源的好用算力平台,以及支持软硬件联合优化与加速的中间件,让异构芯片真正转化为大算力。
从推理到训练,让开发者用上异构算力
为回应AI Native应用开发者的算力与工具需求,无问芯穹的Infini-AI云平台应运而生。Infini-AI云平台共由三部分构成,分别是异构云管平台、一站式AI平台(平台即服务,Platform as a Service)和大模型服务平台(模型即服务,Model as a Service)。
异构云管平台提供算力资源的异构纳管、运维和监控能力,提供的丰富的算力运营体系。一站式AI平台是训练系统、中间层框架的产品化体现,以工具链的形式为用户提供便捷好用的算力使用接口。在算力调度层面,已建设起匹配10000卡规模的异构集群调度系统,支持10余种芯片类型,集群资源利用率平均可达90%。
大模型服务平台(模型即服务,Model as a Service),是以异构推理加速为基础,为应用开发者提供的模型平台,不仅提供数据处理、微调、推理等快速便捷的模型调用API,还会集成模型与应用结合的最佳实践,提供专家支持与经验的工具化沉淀,降低模型到应用的门槛。已集成无问芯穹的serving优化技术能力,当并发量很高,多个用户同时发送请求时,可实现30倍以上的Token吞吐率提升。
截止本次发布时间,Infini-AI已支持了Qwen2、GLM4、Llama3、Gemma、Yi、Baichuan2、ChatGLM3系列等共30多个模型,以及AMD、华为昇腾、壁仞、寒武纪、燧原、海光、天数智芯、沐曦、摩尔线程、NVIDIA等10余种计算卡。其中,华为昇腾、海光为新增芯片品牌。
夏立雪回顾,“此前我们证明了10多种异构芯片在Infini-AI上可被用于大模型推理,这次我们则证明了异构算力在Infini-AI上可以被用来做大模型训练。”最重要的是,Infini-AI支持多种模型与多种芯片间的自由搭配组合。
值得一提的是,今年世界人工智能大会首日,无问芯穹基于多种模型与多种芯片自由搭配组合的产品能力构建的游戏应用“谁是卧底”小游戏意外受到了现场观众的喜爱。这一应用允许观众通过选取多种模型与芯片,自由组合出4位“AI玩家”,与自己亲手“组装”出来“AI玩家”们展开一场语言博弈游戏。
“有的模型不论配什么芯片,‘人设’都很稳定。有的模型换一个参数或换一种芯片搭配,就会表现出另一种行为模式。”无问芯穹的工作人员介绍,有现场观众为了探索这些组合背后的规律,把这款小游戏翻来覆去玩了半个小时。
“在Infini-AI上部署AI 应用的时候,就像在淘宝上购物时选择不同的尺寸、不同的颜色一样,可以把模型和芯片组合成一个套餐来使用。”夏立雪曾介绍,在Infini-AI上,想要什么样的模型与芯片组合,取决于开发者自己的选择,且使用时不会感受到底层硬件差异。
无问芯穹所构建的技术产品,打破了单一芯片品牌训练资源瓶颈,整合并扩大了市面上可用的算力范围。为AI开发者屏蔽了底层异构芯片的数量与性能差异,打通了多种模型到多种芯片间的高效训练与推理。并且,能让开发者们能够有效利用各类算力资源,摆脱算力不足焦虑,专注于AI应用创新。
千卡异构混训集群算力利用率行业领先
这一系列研、产进展背后,是无问芯穹研发团队在异构芯片计算优化与集群系统设计上的强大实力支撑。
近日,无问芯穹与清华、上交的联合研究团队发布了HETHUB,这是一个用于大规模模型的异构分布式混合训练系统,这是业内首次实现六种不同品牌芯片间的交叉混合训练,且工程化完成度高。已将高效的互联互通、精密的分布式并行策略,如张量并行、数据并行、通信overlap等封装入Infini-AI的训练产品中向开发者提供服务。
异构芯片间的混训主要面临两大挑战,一是异构卡通信库差异,导致异构卡之间通信难,二是异构卡之间性能差异,导致模型分布式训练低效。
为此,无问芯穹建立了一个通用集合通信库,实现不同芯片的高效通信;然后提出了一种基于流水线并行的非均匀拆分方案,以解决不同种芯片负载均衡的问题;最后提出了一个自研的混训性能预测工具,用于判断最优的非均匀拆分策略,指导千卡异构集群训练。从实际千卡混合训练效果可见,无问芯穹千卡异构混合训练集群算力利用率最高达到了97.6%。
“后续,无问芯穹的技术团队会针对这项技术展开解读。”(技术解读账号:无问芯穹TechView)夏立雪介绍,这项技术工程化的初衷,是希望能够通过整合更多异构算力,继续推高大模型技术能力的上限,同时通过打通异构芯片生态,持续降低大模型应用落地成本。
有观点认为,GPT-4之后,大模型能力的增长接近停滞,而当大模型能力见顶,AI Native应用才会更容易爆发。“技术上限推高与技术落地扩散不矛盾,且取决于我们决心如何对待这个技术。”
夏立雪表示,今天说让大模型成本下降10000倍,就像30年前说让家家户户都通电一样。优良的基础设施就是这样一种“魔法”,当边际成本下降到临界值,就能有更多的人拥抱新技术。