全球首个支援单任务千卡规模异构芯片融合训练平台,来自无问芯穹

“打开水龙头前,我们不需要知道水是从哪条河里来的。同理,未来我们用各种 AI 利用时,也不会知道它挪用了哪些基座模型,用到了哪种加速卡的算力——这就是最好的 AI Native 基础设施。”7月4日,在2024年世界人工智能大会AI基础设施论坛上,无问芯穹联合创始人兼CEO夏立雪发布了无问芯穹大规模模型的异构分布式融合训练系统,千卡异构融合训练集群算力利用率最高达到了97.6%。同时,夏立雪宣布无问芯穹Infini-AI云平台已集成大模型异构千卡混训本领,是全球首个可进行单任务千卡规模异构芯片融合训练的平台,具备万

“打开水龙头前,我们不需要知道水是从哪条河里来的。同理,未来我们用各种 AI 利用时,也不会知道它挪用了哪些基座模型,用到了哪种加速卡的算力——这就是最好的 AI Native 基础设施。”

全球首个支援单任务千卡规模异构芯片融合训练平台,来自无问芯穹

7月4日,在2024年世界人工智能大会AI基础设施论坛上,无问芯穹联合创始人兼CEO夏立雪发布了无问芯穹大规模模型的异构分布式融合训练系统,千卡异构融合训练集群算力利用率最高达到了97.6%

同时,夏立雪宣布无问芯穹Infini-AI云平台已集成大模型异构千卡混训本领,是全球首个可进行单任务千卡规模异构芯片融合训练的平台,具备万卡扩展性,支援包括AMD、华为昇腾、天数智芯、沐曦、摩尔线程、NVIDIA六种异构芯片在内的大模型融合训练。7月起,通过试训申请的用户,已可在Infini-AI上一键发起700亿参数规模的大模型训练。

全球首个支援单任务千卡规模异构芯片融合训练平台,来自无问芯穹

就在4个月前,无问芯穹Infini-AI大模型开发与服务云平台宣布首次公测,已有智谱AI、月之暗面、生数科技等大模型公司客户在Infini-AI上稳定利用异构算力,还有20余家AI Native利用创业公司在Infini-AI上持续挪用各种预置模型API,利用无问芯穹供应的工具链开发自身业务模型。

夏立雪回顾,“上次我们证明了10多种异构芯片在Infini-AI上可被用于大模型推理,这次我们则是证明了异构算力在Infini-AI上可以被用来做大模型训练。”

打破生态竖井,让异构芯片转化为大算力

训练和推理是大模型生命周期中不可或缺的两个阶段,都需要强大的算力资本来支撑。然而,相比国际上模型层与芯片层呈现的相对集中的格局,中国的模型层与芯片层表现得“百花齐放”,尤其是在芯片层。

全球首个支援单任务千卡规模异构芯片融合训练平台,来自无问芯穹

这些异构的芯片之间,存在着一种“生态竖井”,即,硬件生态系统封闭且互不兼容。用了A卡的开发者,无法轻易迁移至B卡上展开工作,也难以同时利用A卡和B卡完成大模型训练或推理。

这导致,如果一个算力集群中存在两种或以上的芯片,算力利用方会面临一系列技能挑战,比如不同硬件平台适配不同的软件栈和工具链,而某些任务更容易在特定类型的芯片上运行,开发者若要在异构芯片上从事生产,就需要为每种芯片定制和优化代码,这大大增加了开发和维护的复杂性。

全球首个支援单任务千卡规模异构芯片融合训练平台,来自无问芯穹

据不完全统计,宣布拥有千卡规模的中国算力集群已不少于100个,出于诸多缘由,比如过度依赖单一硬件平台可能会使企业面临供应链风险,又比如国产芯片的性能快速提升为集群方供应了多种选择,绝大部分集群已经或正在从同构转向异构

多种算力芯片被投入各地集群从事AI生产,但“生态竖井”的存在,让“多芯片”并不等于“大算力”,大多数企业和开发者望而却步。

全球首个支援单任务千卡规模异构芯片融合训练平台,来自无问芯穹

要有效利用这些算力,既需要多元异构芯片纳管和调度的本领,能灵活按需利用到算力资本,还需要在异构算力与算法框架之间架设一个中间层,统一用户编程框架到算力挪用的接口,屏蔽硬件细节。同时中间层的设计能兼容现有用户的编程习惯,并支援对未来的扩展。

构建适应多模型与多芯片格局的AI Native基础设施,无问芯穹的底层解法是,供应高效整合异构算力资本的好用算力平台,以及支援软硬件联合优化与加速的中间件,让异构芯片真正转化为大算力

从推理到训练,让开发者用上异构算力

为回应AI Native利用开发者的算力与工具需求,无问芯穹的Infini-AI云平台应运而生。Infini-AI云平台共由三部分构成,分别是异构云管平台、一站式AI平台(平台即服务,Platform as a Service)和大模型服务平台(模型即服务,Model as a Service)。

全球首个支援单任务千卡规模异构芯片融合训练平台,来自无问芯穹

异构云管平台供应算力资本的异构纳管、运维和监控本领,供应的丰富的算力运营体系。一站式AI平台是训练系统、中间层框架的产品化体现,以工具链的形式为用户供应便捷好用的算力利用接口。在算力调度层面,已建设起匹配10000卡规模的异构集群调度系统,支援10余种芯片类型,集群资本利用率平均可达90%。

全球首个支援单任务千卡规模异构芯片融合训练平台,来自无问芯穹

大模型服务平台(模型即服务,Model as a Service),是以异构推理加速为基础,为利用开发者供应的模型平台,不仅供应数据处理、微调、推理等快速便捷的模型挪用API,还会集成模型与利用结合的最佳实践,供应专家支援与经验的工具化沉淀,降低模型到利用的门槛。已集成无问芯穹的serving优化技能本领,当并发量很高,多个用户同时发送请求时,可实现30倍以上的Token吞吐率提升。

全球首个支援单任务千卡规模异构芯片融合训练平台,来自无问芯穹

截止本次发布时间,Infini-AI已支援了Qwen2、GLM4、Llama3、Gemma、Yi、Baichuan2、ChatGLM3系列等共30多个模型,以及AMD、华为昇腾、壁仞、寒武纪、燧原、海光、天数智芯、沐曦、摩尔线程、NVIDIA等10余种计算卡。其中,华为昇腾、海光为新增芯片品牌

全球首个支援单任务千卡规模异构芯片融合训练平台,来自无问芯穹

夏立雪回顾,“此前我们证明了10多种异构芯片在Infini-AI上可被用于大模型推理,这次我们则证明了异构算力在Infini-AI上可以被用来做大模型训练。”最重要的是,Infini-AI支援多种模型与多种芯片间的自由搭配组合。

值得一提的是,今年世界人工智能大会首日,无问芯穹基于多种模型与多种芯片自由搭配组合的产品本领构建的游戏利用“谁是卧底”小游戏意外受到了现场观众的喜爱。这一利用允许观众通过选取多种模型与芯片,自由组合出4位“AI玩家”,与自己亲手“组装”出来“AI玩家”们展开一场语言博弈游戏。

全球首个支援单任务千卡规模异构芯片融合训练平台,来自无问芯穹

“有的模型不论配什么芯片,‘人设’都很稳定。有的模型换一个参数或换一种芯片搭配,就会表现出另一种行为模式。”无问芯穹的工作人员介绍,有现场观众为了探索这些组合背后的规律,把这款小游戏翻来覆去玩了半个小时。

“在Infini-AI上部署AI 利用的时候,就像在淘宝上购物时选择不同的尺寸、不同的颜色一样,可以把模型和芯片组合成一个套餐来利用。”夏立雪曾介绍,在Infini-AI上,想要什么样的模型与芯片组合,取决于开发者自己的选择,且利用时不会感受到底层硬件差异

无问芯穹所构建的技能产品,打破了单一芯片品牌训练资本瓶颈,整合并扩大了市面上可用的算力范围。为AI开发者屏蔽了底层异构芯片的数量与性能差异,打通了多种模型到多种芯片间的高效训练与推理。并且,能让开发者们能够有效利用各类算力资本,摆脱算力不足焦虑,专注于AI利用创新。

千卡异构混训集群算力利用率行业领先

这一系列研、产进展背后,是无问芯穹研发团队在异构芯片计算优化与集群系统设计上的强大实力支撑。

近日,无问芯穹与清华、上交的联合研究团队发布了HETHUB,这是一个用于大规模模型的异构分布式融合训练系统,这是业内首次实现六种不同品牌芯片间的交叉融合训练,且工程化完成度高。已将高效的互联互通、精密的分布式并行策略,如张量并行、数据并行、通讯overlap等封装入Infini-AI的训练产品中向开发者供应服务。

全球首个支援单任务千卡规模异构芯片融合训练平台,来自无问芯穹

异构芯片间的混训主要面临两大挑战,一是异构卡通讯库差异,导致异构卡之间通讯难,二是异构卡之间性能差异,导致模型分布式训练低效。

为此,无问芯穹建立了一个通用集合通讯库,实现不同芯片的高效通讯;然后提出了一种基于流水线并行的非均匀拆分方案,以解决不同种芯片负载均衡的问题;最后提出了一个自研的混训性能预测工具,用于判断最优的非均匀拆分策略,指导千卡异构集群训练。从实际千卡融合训练效果可见,无问芯穹千卡异构融合训练集群算力利用率最高达到了97.6%。

全球首个支援单任务千卡规模异构芯片融合训练平台,来自无问芯穹

“后续,无问芯穹的技能团队会针对这项技能展开解读。”(技能解读账号:无问芯穹TechView)夏立雪介绍,这项技能工程化的初衷,是希望能够通过整合更多异构算力,继续推高大模型技能本领的上限,同时通过打通异构芯片生态,持续降低大模型利用落地成本。

全球首个支援单任务千卡规模异构芯片融合训练平台,来自无问芯穹

有观点认为,GPT-4之后,大模型本领的增长接近停滞,而当大模型本领见顶,AI Native利用才会更容易爆发。“技能上限推高与技能落地扩散不矛盾,且取决于我们决心如何对待这个技能。”

夏立雪表示,今天说让大模型成本下降10000倍,就像30年前说让家家户户都通电一样。优良的基础设施就是这样一种“魔法”,当边际成本下降到临界值,就能有更多的人拥抱新技能

给TA打赏
共{{data.count}}人
人已打赏
应用

消息称国际首款鸿蒙人形机器人正在蔚来、利市等工厂检测验证

2024-7-6 9:07:25

应用

快手文生图大模型“可图”宣布开源,现已上线微信小程序和网页版

2024-7-6 10:49:03

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索