存储

一致哈希算法:如何分群,突破集群的“领导者”限制?

一、一致哈希算法的背景1.1 传统哈希算法的问题在传统的哈希算法中,数据存储通常采用如下映射关系:node=hash(key)%Nnode = hash(key) \% Nkey:数据的键N:当前集群中节点的数量问题:当节点数量发生变化(例如从2个节点扩展到3个节点),几乎所有的键都会被重新分配到不同的节点上,导致大量数据迁移。 示例:2个节点:hash(key) % 2 → 节点0、节点1扩展到3个节点:hash(key) % 3 → 节点0、节点1、节点2可以看到,大部分数据的映射发生了变化。 1.2 一致哈希的引入一致哈希算法 使用了一个逻辑哈希环(Hash Ring)的概念,将整个哈希空间(0到2^32-1)组织成一个环形结构。

数据湖系列 | 数据湖存储加速方案的发展和对比分析

本文按照数据湖存储加速方案的不同发展阶段铺开,比较了各类方案之间的异同,并深度剖析了这类方案的技术本质。 我们期望本文能够帮助读者对大数据和 AI 场景下的「数据湖存储加速」这个主题建立一个整体把握,为选出适合自己业务的方案提供参考。 图片24 年初,我们和客户 H 进行了交流。

复旦团队国际首次验证超快闪存集成工艺:20 纳秒超快编程、10 年非易失

感谢据复旦大学官方今日消息,人工智能的飞速发展迫切需要高速非易失存储技术。当前主流非易失闪存的编程速度在百微秒级,无法支撑应用需求。复旦大学周鹏-刘春森团队前期研究表明二维半导体结构能够将速度提升一千倍以上,实现颠覆性的纳秒级超快存储闪存。然而,如何实现规模集成、走向实际应用极具挑战。从界面工程出发,复旦大学团队在国际上首次验证了 1Kb 超快闪存阵列集成验证,并证明了超快特性可延伸至亚 10 纳米尺度。北京时间 8 月 12 日下午 5 点,相关成果以《二维超快闪存的规模集成工艺》(“A scalable int

Snowflake如日中天是否代表Hadoop已死?大数据体系到底是什么?

作者 | 阿里云计算平台研究员关涛、阿里巴巴项目管理专家王璀任何一种技术都会经历从阳春白雪到下里巴人的过程,就像我们对计算机的理解从“戴着鞋套才能进的机房”变成了随处可见的智能手机。在前面20年中,大数据技术也经历了这样的过程,从曾经高高在上的 “火箭科技(rocket science)”,成为了人人普惠的技术。回首来看,大数据发展初期涌现了非常多开源和自研系统,并在同一个领域展开了相当长的一段“红海”竞争期,例如Yarn VS Mesos、Hive VS Spark、Flink VS SparkStreaming

融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系

本文由 T3 出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎介绍 Flink、Kylin 和 Hudi 湖仓一体的大数据生态体系以及在 T3 的相关应用场景,内容包括: 湖仓一体的架构 Flink/Hudi/Kylin 介绍与融合 T3 出行结合湖仓一体的实践
  • 1