在 11 月底的 2024 中国信息通信大会“算力网络算网一体创新发展论坛”上,中国移动研究院副院长段晓东携手天数智芯、壁仞科技、中兴、海光、瀚博等产业合作伙伴,发布了“芯合”异构混合并行训练系统 1.0。
据介绍,“芯合”异构混合并行训练系统具备基于非均匀计算任务切分 ITD(Inhomogeneous Task Distribution)算法的 3D 并行策略和基于 GDR(GPU Direct RDMA)的异构芯片高速通信两大核心能力。
基于 ITD 算法的 3D 并行技术可通过通用混合训练框架实现异构数据并行、异构流水线并行,实现数据微批次大小、数量、流水线并行度等参数在异构算力上的自适应调整;
基于 GDR 的异构芯片高速通信技术可在不改变芯片原有通信接口基础上,通过定义数据传输架构、流程及接口标准,屏蔽底层硬件差异,实现顶层训练任务在异构算力集群上分布式通信的无感拆解。
中国移动透露,当前,系统已实现百亿参数大模型在英伟达、天数智芯、壁仞科技、海光等 4 家智算芯片上的交叉混合训练,规模可支持万卡集群,训练加速比达 95% 以上,达到“业界领先水平”,未来将在提升智能算力资源利用率及促进国产算力发展等方面发挥重要作用。
此外,中国移动携手华为、瀚博、澎峰、海光、天数智芯等产业合作伙伴在论坛上发布了智算“芯合”算力原生基础软件栈 2.0。
AI在线查询公开资料获悉,中国移动于 2023 年研发并发布“芯合”算力原生基础软件栈 1.0,首次实现智算应用一键式跨芯迁移的目标,已在山东、广西等多省市的路桥检测、智能安防等场景试点应用,降低智算应用向国产化芯片迁移的复杂度。
“芯合”基础软件栈 2.0 相较于之前实现了三大升级:
一是能力升级,全面重构算力抽象模型,插件化灵活接入英伟达、华为、海光等 6 家 AI 芯片,拓展 ONNX、SYCL 等更多编程范式,支持泛 AI 应用的跨芯迁移。
二是性能升级,新增对标 CUDA 的 DNN、BLAS 等高性能计算库,提供图算融合编译优化能力,实现性能大幅提升,当前应用跨架构迁移损耗已降低至 10% 以内。
三是效率升级,构建面向智算应用的“跨架构软件工厂”,提供统一开发、调试、优化、部署、迁移全生命周期服务能力,缩短应用开发、上线时间,提升整体研发效率。
中国移动透露,当前,“芯合”算力原生基础软件栈 2.0 已实现泛 AI 应用在英伟达、英特尔、华为、瀚博、天数智芯、海光 6 家智算芯片间的一键式跨芯流转迁移,源源转换效率 > 95%,迁移性能损耗 < 10%,迁移时间 < 20s,已具备规模商用条件,未来将在提升智能算力网络自主可控水平方面发挥重要作用。