Meta 推出 SPDL 工具:突破训练 AI 模型数据效率瓶颈,吞吐量提升 2-3 倍

训练 AI 模型的瓶颈,目前不再仅仅是架构设计,数据管理效率也至关重要。Meta AI 最新推出了开源可扩展且高性能的数据加载(SPDL)工具,通过提升数据加载效率,最终加快 AI 训练速度。

训练 AI 模型的瓶颈,目前不再仅仅是架构设计,数据管理效率也至关重要。Meta AI 最新推出了开源可扩展且高性能的数据加载(SPDL)工具,通过提升数据加载效率,最终加快 AI 训练速度。

SPDL 工具采用多线程技术,在常规 Python 解释器中(未启用 free-threading 选项)实现了高吞吐量,资源占用更低,并兼容 Free-Threaded Python。

核心优势

SPDL 包含任务执行器(流水线抽象)、构建流水线的实用工具以及高效且线程安全的媒体处理操作,其核心是异步事件循环,负责调度新任务和响应任务完成。SPDL 通过将同步操作委托给线程异步执行,实现真正的并发。

Meta 推出 SPDL 工具:突破训练 AI 模型数据效率瓶颈,吞吐量提升 2-3 倍

Meta 推出 SPDL 工具:突破训练 AI 模型数据效率瓶颈,吞吐量提升 2-3 倍

Meta 推出 SPDL 工具:突破训练 AI 模型数据效率瓶颈,吞吐量提升 2-3 倍

Meta 推出 SPDL 工具:突破训练 AI 模型数据效率瓶颈,吞吐量提升 2-3 倍

相比较传统基于进程(process)的处理方式,SPDL 工具升级改用基于线程(thread)的加载方式,有效避免了进程间通信的开销,显著提升了数据传输速度。

该工具的另一个亮点在于预取和缓存技术,确保 GPU 始终有数据可供处理,最大程度减少 GPU 空闲时间,提高系统整体效率。

Meta 推出 SPDL 工具:突破训练 AI 模型数据效率瓶颈,吞吐量提升 2-3 倍

无论是单 GPU 还是大型集群,SPDL 支持跨分布式系统工作,可以高效处理复杂任务;SPDL 工具还无缝兼容主流 AI 框架 PyTorch,方便团队快速采用。

性能

Meta 表示相比传统基于进程的方案,SPDL 吞吐量提升 2-3 倍;此外在禁用 GIL 的 Free-Threaded Python 环境中,SPDL 吞吐量提升 30%。

Meta 推出 SPDL 工具:突破训练 AI 模型数据效率瓶颈,吞吐量提升 2-3 倍

Meta 推出 SPDL 工具:突破训练 AI 模型数据效率瓶颈,吞吐量提升 2-3 倍

Meta 推出 SPDL 工具:突破训练 AI 模型数据效率瓶颈,吞吐量提升 2-3 倍

Meta 推出 SPDL 工具:突破训练 AI 模型数据效率瓶颈,吞吐量提升 2-3 倍

SPDL 提供性能监控和调优工具,方便用户深入了解数据加载过程并进行优化。

AI在线附上参考地址

  • Introducing SPDL: Faster AI model training with thread-based data loading

  • Meta AI Introduces SPDL (Scalable and Performant Data Loading): A Step Forward in AI Model Training with Thread-based Data Loading

相关资讯

Meta AI 全球市场扩张,并上线网页版 meta.ai

Meta 公司近日宣布 Llama 3 大语言模型之外,扩展 Meta AI 服务到美国之外的 13 个国家和地区,还宣布上线专门的聊天网站:meta.ai。Meta 公司在新闻稿中表示开始在全球市场扩展 Meta AI,在澳大利亚、加拿大、南非和新加坡等国家和地区推出英语版本。IT之家附上 Meta AI 扩展的国家和地区如下澳大利亚加拿大加纳牙买加马拉维新西兰尼日利亚巴基斯坦新加坡南非乌干达赞比亚津巴布韦Meta AI 整合了 Llama 3 大语言模型,速度更快、智能性更高、功能更强,是执行各种任务的理想选择

Llama3后,Meta又开放自家头显操作系统,打造元宇宙时代新安卓

虽然向第三方开放了操作系统,但 Meta 将继续开发 Quest 头显设备。Meta 誓将开放进行到底。这次把自家 VR 头显 Quest 采用的操作系统「Meta Horizon OS」向第三方硬件制造商开放了,包括华硕、联想和微软等一众企业。此举意在展示作为 MR 操作系统整合者的 Meta 对元宇宙开放的新愿景。至此,Meta 正式向实现元宇宙更开放的计算平台愿景迈出下一步。为实现该恢弘战略,Meta 同时在三方面不断发力,并竭力整合资源:向第三方硬件制造商开放 Meta Quest 设备的操作系统,为消费者

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和