DeepSeek AI推出Smallpond:基于DuckDB与3FS的轻量级数据处理框架

随着数据集的不断扩大和分布式处理的复杂性加剧,现代数据工作流面临越来越大的挑战。 许多组织发现,传统的数据处理系统在处理时间、内存限制和分布式任务管理方面存在显著的短板。 在这样的背景下,数据科学家和工程师往往需要花费大量时间在系统维护上,而非从数据中提取有价值的见解。

随着数据集的不断扩大和分布式处理的复杂性加剧,现代数据工作流面临越来越大的挑战。许多组织发现,传统的数据处理系统在处理时间、内存限制和分布式任务管理方面存在显著的短板。在这样的背景下,数据科学家和工程师往往需要花费大量时间在系统维护上,而非从数据中提取有价值的见解。显然,市场迫切需要一种既能简化流程又不牺牲性能的工具。

QQ_1741226770776.png

最近,DeepSeek AI 发布了 Smallpond,这是一个轻量级的数据处理框架,基于 DuckDB 和3FS 构建。Smallpond 旨在将 DuckDB 在进程内的高效 SQL 分析扩展到分布式环境中。通过与3FS—— 一种针对现代 SSD 和 RDMA 网络优化的高性能分布式文件系统 —— 的结合,Smallpond 为处理大型数据集提供了实用的解决方案,避免了长时间运行服务的复杂性和高昂的基础设施开销。

Smallpond 框架设计简单且模块化,与 Python3.8至3.12版本兼容,用户可以通过 pip 快速安装,迅速开始数据处理。框架的一大亮点是支持手动数据分区,用户可以根据文件数量、行数或特定列的哈希值来进行分区,这种灵活性使得用户能够根据自身的数据和基础设施进行定制处理。

在技术层面,Smallpond 充分利用 DuckDB 的原生 SQL 查询性能,并与 Ray 集成以实现分布式计算节点的并行处理。这种结合不仅简化了扩展操作,还确保在多个节点之间高效处理工作负载。此外,通过避免持久化服务,Smallpond 降低了通常与分布式系统相关的运营开销。

在性能测试中,Smallpond 在 GraySort 基准测试中表现出色,仅用30多分钟就对110.5TiB 的数据进行了排序,平均吞吐量达到了每分钟3.66TiB。这些性能指标表明,Smallpond 能够满足处理从数 TB 到 PB 级别数据的组织需求。作为一个开源项目,Smallpond 也欢迎用户和开发者的参与,以实现进一步的优化和适应多样化的使用场景。

Smallpond 为分布式数据处理迈出了重要一步,它通过将 DuckDB 的高效性扩展到分布式环境中,结合3FS 的高吞吐能力,为数据科学家和工程师提供了一个实用的工具。无论是处理小型数据集还是扩展到 PB 级别的操作,Smallpond 都是一个有效且易于接入的框架。

项目:https://github.com/deepseek-ai/smallpond?tab=readme-ov-file

划重点:

🌟 Smallpond 是 DeepSeek AI 推出的轻量级数据处理框架,基于 DuckDB 和3FS 构建。  

⚙️ 支持 Python3.8至3.12,用户可快速安装并灵活定制数据处理。  

🚀 在 GraySort 基准测试中,Smallpond 以超高性能展示了其处理 TB 级数据的能力。  

相关资讯

集结云产业核心成员建立分布式智囊团 安迈云受邀助推新一代云计算

2021年5月28日,由中关村数智人工智能产业联盟指导,51CTO主办的“云响力Web3.0新一代云计算大会”在北京圆满落幕,此次峰会集结了来自华为云、腾讯云、京东云、浪潮信息等众多一线云计算厂商,此外,以安迈云为代表的去中心化云计算企业也受邀参与此次峰会,共同针对Web3.0时代云计算的发展,探索新的应用场景。汇集云产业链核心成员 建立“分布式智囊团”此次大会不仅在于对新一代云计算技术、应用上的实践分享,更是由大会主办方51CTO发起,浪潮信息、安迈云、Datenlord等企业的嘉宾代表作为成员,正式成立“分布式

大模型训练算力利用率达60%,蚂蚁开源分布式训练扩展库ATorch

近日,蚂蚁集团宣布开源大模型分布式训练加速扩展库ATorch。ATorch可针对不同模型和硬件资源,实现深度学习自动资源动态优化和分布式训练稳定性提升,帮助提升深度学习的智能性。据了解,在大模型训练中,ATorch千亿模型千卡级别训练的算力利用率可达60%,相当于为跑车装上了强劲的引擎。图:ATorch致力于让大模型训练更高效、可复现随着生成式大模型的爆发,模型训练的数据集和参数规模成指数级增长,要带动如此庞然大物,并且满足模型的快速迭代,分布式训练就成为了解题之道。在大模型开发工作中,很多开发者和研究人员采用Py

中国移动上海产业研究院:金融领域 AI 大模型渗透率过半,系行业最高

据《北京商报》周日报道,在 2024 金融街论坛年会“AI 金融赋能数字金融新篇章”平行论坛上,中国移动上海产业研究院副总经理陈豫蓉介绍,金融领域是大模型渗透率最高的行业,渗透率超过 50%。智慧销售、智能问答和智能风控是现阶段金融行业最热门,也是应用成熟度最高的 AI 大模型应用场景。AI在线从报道获悉,金融业具备大规模、高质量的数据资源和多维度、多元化的应用场景,被视为大模型技术应用的最优行业之一。