利用固态硬盘降低 AI 微调训练显存需求,群联展示 aiDaptiv+ 平台

据外媒 Tom's Hardware 报道,群联在英伟达 GDC2024 上展示了同 Maingear 合作的 aiDaptiv 硬件平台,可降低中小型企业 AI 模型微调训练成本。群联表示中小型企业在模型微调训练方面面临各种困难:采用云服务不仅昂贵也存在数据隐私的不稳定性;而在本地运行又需要复杂的构建过程,电力需求也不能忽视。而群联 aiDaptiv 方案采用超耐用型 aiDAPTIVCache 固态硬盘,可扩展系统的可用内存容量,容纳更大模型,同时也方便易用。具体来说,aiDaptiv 包含的中间件软件库

据外媒 Tom's Hardware 报道,群联在英伟达 GDC2024 上展示了同 Maingear 合作的 aiDaptiv+ 硬件平台,可降低中小型企业 AI 模型微调训练成本。

群联表示中小型企业在模型微调训练方面面临各种困难:采用云服务不仅昂贵也存在数据隐私的不稳定性;而在本地运行又需要复杂的构建过程,电力需求也不能忽视。

而群联 aiDaptiv+ 方案采用超耐用型 aiDAPTIVCache 固态硬盘,可扩展系统的可用内存容量,容纳更大模型,同时也方便易用。

具体来说,aiDaptiv+ 包含的中间件软件库可将 GPU 显存中不活跃的 AI 模型层切片分离,在 aiDAPTIVCache 缓存固态硬盘上暂放待处理的这些切片,并将 GPU 上已完成的部分与待处理的切片交换。此过程无需对 AI 应用本身进行修改。

群联 aiDaptiv+ 方案介绍

▲ 图源 Tom's Hardware

群联 aiDaptiv+ 方案组成

▲ 图源 Tom's Hardware

群联表示,其 aiDaptiv+ 方案可在一台 4 卡工作站平台中完成 Llama 70b 模型的微调训练,容纳显存总量 7 倍以上的数据。

群联 aiDaptiv+ 方案性能

▲ 图源群联官方

而为了实现这种显存外数据存储,方案中的固态硬盘必须要有足够高的耐久。

群联此次推出的 aiDAPTIVCache 系列固态硬盘 ai100E,其采用 SLC 闪存,每根容量 2TB,拥有 5 年内 100DWPD(IT之家注:每日整盘写入次数)的写入耐久。

相关资讯

TrendForece:AI 推理带动今年企业级 QLC 固态硬盘出货容量增长四倍

TrendForece 集邦咨询今日发布研报,表示今年企业级 QLC 固态硬盘的出货位元将因 AI 推理服务器需求增长四倍,达 30EB(IT之家注:约 3146 万 TB)。研报表示,AI 推理服务器对存储介质以读取为主,写入不如 AI 训练服务器频繁。企业级的 QLC 固态虽然写入耐久不如 TLC 盘,但在读取方面并不逊色,同时也拥有成本优势。而对比企业级机械硬盘,企业级 QLC 固态硬盘在速度具有明显优势的同时,运行能耗较低。同时企业级 QLC 固态硬盘已可实现 61.44TB 容量,相较企业级机械硬盘常见的

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本文第一作者为 Chuanyang Jin (金川杨),本科毕业于纽约大学,即将前往 JHU 读博。本文为他本科期间在 MIT 访问时的工作,他是最年轻的杰出论文奖获得者之一。本文的指导老

阿里开源 支持10万亿模型的自研分布式训练框架EPL(Easy Parallel Library)

最近阿里云机器学习PAI平台和达摩院智能计算实验室一起发布“低碳版”巨模型M6-10T,模型参数已经从万亿跃迁到10万亿,规模远超业界此前发布的万亿级模型,成为当前全球最大的AI预训练模型。