中国移动发布“芯合”异构混合并行训练系统 1.0,支持多品牌万卡集群

系统已实现百亿参数大模型在英伟达、天数智芯、壁仞科技、海光等 4 家智算芯片上的交叉混合训练,规模可支持万卡集群,训练加速比达 95% 以上。

在 11 月底的 2024 中国信息通信大会“算力网络算网一体创新发展论坛”上,中国移动研究院副院长段晓东携手天数智芯、壁仞科技、中兴、海光、瀚博等产业合作伙伴,发布了“芯合”异构混合并行训练系统 1.0

图片

据介绍,“芯合”异构混合并行训练系统具备基于非均匀计算任务切分 ITD(Inhomogeneous Task Distribution)算法的 3D 并行策略和基于 GDR(GPU Direct RDMA)的异构芯片高速通信两大核心能力。

  • 基于 ITD 算法的 3D 并行技术可通过通用混合训练框架实现异构数据并行、异构流水线并行,实现数据微批次大小、数量、流水线并行度等参数在异构算力上的自适应调整;

  • 基于 GDR 的异构芯片高速通信技术可在不改变芯片原有通信接口基础上,通过定义数据传输架构、流程及接口标准,屏蔽底层硬件差异,实现顶层训练任务在异构算力集群上分布式通信的无感拆解。

中国移动透露,当前,系统已实现百亿参数大模型在英伟达、天数智芯、壁仞科技、海光等 4 家智算芯片上的交叉混合训练,规模可支持万卡集群,训练加速比达 95% 以上,达到“业界领先水平”,未来将在提升智能算力资源利用率及促进国产算力发展等方面发挥重要作用。

此外,中国移动携手华为、瀚博、澎峰、海光、天数智芯等产业合作伙伴在论坛上发布了智算“芯合”算力原生基础软件栈 2.0

AI在线查询公开资料获悉,中国移动于 2023 年研发并发布“芯合”算力原生基础软件栈 1.0,首次实现智算应用一键式跨芯迁移的目标,已在山东、广西等多省市的路桥检测、智能安防等场景试点应用,降低智算应用向国产化芯片迁移的复杂度。

“芯合”基础软件栈 2.0 相较于之前实现了三大升级:

  • 一是能力升级,全面重构算力抽象模型,插件化灵活接入英伟达、华为、海光等 6 家 AI 芯片,拓展 ONNX、SYCL 等更多编程范式,支持泛 AI 应用的跨芯迁移。

  • 二是性能升级,新增对标 CUDA 的 DNN、BLAS 等高性能计算库,提供图算融合编译优化能力,实现性能大幅提升,当前应用跨架构迁移损耗已降低至 10% 以内。

  • 三是效率升级,构建面向智算应用的“跨架构软件工厂”,提供统一开发、调试、优化、部署、迁移全生命周期服务能力,缩短应用开发、上线时间,提升整体研发效率。

中国移动透露,当前,“芯合”算力原生基础软件栈 2.0 已实现泛 AI 应用在英伟达、英特尔、华为、瀚博、天数智芯、海光 6 家智算芯片间的一键式跨芯流转迁移,源源转换效率 > 95%,迁移性能损耗 < 10%,迁移时间 < 20s,已具备规模商用条件,未来将在提升智能算力网络自主可控水平方面发挥重要作用。

相关资讯

DDN 推出 Infinia 2.0对象存储,加速AI数据处理速度

在最近的发布会上,数据动力公司(DDN)宣布了其最新的 Infinia2.0对象存储系统,专为人工智能(AI)训练和推理而设计。 该系统声称可以实现高达100倍的 AI 数据加速和10倍的云数据中心成本效率提升,吸引了众多行业关注。 DDN 的首席执行官兼联合创始人亚历克斯・布扎里(Alex Bouzari)表示:“全球500强企业中有85家在使用 DDN 的数据智能平台来运行他们的 AI 和高性能计算(HPC)应用。

AI 要“白嫖”音乐?英国千名音乐家发“无声专辑”抗议

英国政府计划修改版权法,允许AI公司未经许可使用艺术家作品进行训练,引发音乐界强烈反对。1000名音乐家联合发布无声专辑《Is This What We Want?》,通过空荡荡的工作室和演出场所的声音,抗议版权法改革对创作生态的冲击。专辑收益将捐给慈善机构。#版权法改革 #AI训练 #音乐界抗议

好莱坞创意人士反对开放 AI 和谷歌使用版权材料进行训练

近日,400多位好莱坞知名创意人士,包括著名导演罗恩・霍华德(Ron Howard)、奥斯卡获奖演员凯特・布兰切特(Cate Blanchett)、音乐传奇保罗・麦卡特尼(Paul McCartney)等,联合向白宫递交了一封信,明确反对开放 AI 和谷歌希望在版权材料上进行 AI 训练的请求。 他们认为,美国在人工智能领域的全球领导地位不应以削弱创意产业为代价。 图源备注:图片由AI生成,图片授权服务商Midjourney这封信指出,艺术和娱乐行业不仅提供了超过230万的就业机会,每年创造2290亿美元的工资,而且也是美国民主价值观在国际上的重要体现。