阿里数据中台底座的12年建立实践

文/阿里云智能计较平台事业部研究员 关涛阿里巴巴数据平台发展的四大阶段建立数据中台,一个强大的数据平台作为底座必不可少。 阿里巴巴数据平台发展的四个阶段,一定程度上其实也是阿里巴巴数据中台发展的四个阶段。这四个阶段里,你可以看到阿里巴巴对自身数据的商业价值的萃取,对原有分而治之的数据系统的聚合,对计较数据财产化和数据高效应用的新思路以及对数据平台管理过程中面临的组织变革等。阶段一:交易百花齐放,发现数据价值2009年到2012年,阿里巴巴电商交易进入爆发期,涌现出非常多有名的交易团队,比如淘宝、1688、AliEx

文/阿里云智能计较平台事业部研究员 关涛

阿里巴巴数据平台发展的四大阶段

阿里数据中台底座的12年建立实践

建立数据中台,一个强大的数据平台作为底座必不可少。 阿里巴巴数据平台发展的四个阶段,一定程度上其实也是阿里巴巴数据中台发展的四个阶段。这四个阶段里,你可以看到阿里巴巴对自身数据的商业价值的萃取,对原有分而治之的数据系统的聚合,对计较数据财产化和数据高效应用的新思路以及对数据平台管理过程中面临的组织变革等。

阶段一:交易百花齐放,发现数据价值

阿里数据中台底座的12年建立实践

2009年到2012年,阿里巴巴电商交易进入爆发期,涌现出非常多有名的交易团队,比如淘宝、1688、AliExpresss、一淘等。每个交易都是基于数据驱动的全场景交易,交易方对数据有着强烈的诉求。 那个时候,阿里巴巴手艺几乎都是IOE架构,外围数据系统是Oracle。2年时间内,阿里巴巴建成了全亚洲最大的Oracle集群。但是在2010年,Oracle已经不能满足计较的要求,有非常多数据延迟和不满足性,再加上昂贵的老本,没办法继续支撑交易发展。 阿里巴巴开始认真审视建立下一代数据平台的重要性,同时启动了两个并行项目:一个是“云梯1”,基于开源Hadoop手艺系统,多个交易团队建立多个Hadoop集群,集群规模达到4000台服务器。 一个是“云梯2”(ODPS,现MaxCompute),作为阿里巴巴自研产品启动研发,集群规模1200台左右。蚂蚁小微贷款“牧羊犬”交易是第一个吃螃蟹的交易,上线“云梯2”的过程被称为“人肉云计较”与“分步试计较”。王坚院士2018年曾在央视《朗读者》节目朗读《进入空气稀薄地带》,形容的就是自研数据平台那时的现状与信念。 两个项目在阿里巴巴内部形成竞合状态,并行探索阿里巴巴数据平台发展的轨迹。这个时期,所有交易方的数据几乎都是垂直建立,以自己交易形态形成独立小闭环的形式飞快向前奔跑。

阶段二:交易垂直小闭环,数据孤岛显现 阿里数据中台底座的12年建立实践

2012年到2015年,阿里巴巴电商交易在飞速发展的同时,涌现出更多的新兴交易:2013年,创立菜鸟,启动“all-in 无线”战略;2014年,投资高德,与银泰合资,阿里旅行成立;2015年,推出钉钉/零售通、成立口碑、控股阿里健康等等。 这个时期,阿里巴巴交易蓬勃发展,形成了12个交易部门和9套不同的平台系统,而且每套平台系统架构都不一样,用户数字化流程需要横跨多个BU的多套数据系统。 数据孤岛现象开始日益严重,数据老本越来越高,分裂的数据平台建立已经迫在眉睫,这也是阿里巴巴数据中台的起点。 与此同时,“云梯1”和“云梯2”也正在经历大变革。 2013年3月28日,阿里巴巴集团手艺保障部架构师云铮的邮件直达集团高层:“按照数据增量与未来交易增长的情况,云梯1和云梯2两套系统的保存和计较本领将在今年6月21日到达瓶颈。”届时,许多的交易将因为手艺的限制而无法展开。 这意味着,数据平台已经无法再同时并行“云梯1”与“云梯2”两个项目,必须选择其中1个。如果选择“云梯1”,Hadoop的5000节点限制如何突破?涉及到金融交易,开源系统如何保证大数据的安全与可用性?跨机房方案业界无参考如何解决?交易交互频繁,跨机房如何保证数据稳定交互? 一系列的手艺难题都逐渐将数据平台推向自研道路。 最终,阿里巴巴集团多个手艺部门合璧,决定选择“云梯2”挑衅5K巅峰。短短几个月时间,“云梯2”从1500台跨入5000台并突破单物理机房限制,通过10倍压力测试,同时支持跨集群计较与高可用,为阿里巴巴未来多年的大数据发展奠定了坚实的手艺基础。 5K项目完成手艺突破后,新的压力接踵而来。交易快速发展导致数据规模也急剧膨胀,如何分裂管理数据、分裂保证数据安全、具备分裂开放本领等成绩成为数据平台思考的外围。 为此,阿里巴巴内部启动了一个比较有名的项目,将所有交易部门数据都同步到分裂的大数据平台,分裂进行管理。这个项目经历了两年,涉及阿里巴巴所有事业部,这个过程中,还逐渐推进通用数据平台本领产品化并具备金融级平台的本领。 从当时来看,阿里巴巴建立数据平台的过程是全面分裂数据的过程,也是中国第一个超大规模数据中台建立和迁移的过程。

阶段三:数据中台支撑交易可持续发展

阿里数据中台底座的12年建立实践

2015年到2018年,阿里巴巴数据中台方法论开始确立,拉开了数据中台建立的大幕。2015年,阿里巴巴集团宣布启动“中台战略”后,开始建立符合DT时代的更灵活的“大中台,小前台”组织机制和交易机制。阿里巴巴每个运营小二都可以基于数据制定覆盖用户生命周期的数据化运营策略,生意参谋开始探索数据交易化,更多的交易开始走向实时化。但是,数据和计较的高速增长、资源的高速消耗带来了数据需要管理的成绩。阿里巴巴的团队们开始思考怎么把数据中台的方法论落实到平台层,让数据平台支撑数据中台的建立。

数据是谁的? 谁来用? 谁来管控?数据品质由谁负责?· 平台团队和交易团队是两个团队,老本关系是什么?· 中台方法论,如何落地在数据平台落地?如何管理?· 数字增长很快,超过交易增长,怎么办?· 一张外围表12PB,每个部门复制1份,一年几千万就没了怎么办?· 我知道要删除一半的数据,但到底是哪一半?

这些成绩的背后是数据的管理以及财产化,我们需要一套平台系统把方法论承载进来,真正形成分裂化。在数据平台侧,DataWorks 建立大规模协同数据开发与管理的一站式本领,MaxCompute 支持服务器集群达到十万级,服务阿里集团全部BU、20多万员工的日常运营,一起支撑各项交易的可持续发展。

阶段四:云上数据中台与交易伴生

阿里数据中台底座的12年建立实践

2018年之后,整个阿里巴巴数据平台系统已经很成熟,平台方和交易方达成一个非常好的配合状态。交易方认可数据平台的价值,交易部门与手艺部门相伴相生,数据中台服务交易达到正循环,成为数据中台建立成功的一个标志。 阿里巴巴从2018年内部所有系统开始上云,到2021年实现了云上数据中台与交易伴生:双11外围系统100%上云,阿里巴巴全面云原生化;每秒53.8万笔,阿里云抗住全球最大流量洪峰;数据中台覆盖阿里集团所有BU;运营小二及时发现成绩、分析成绩,实现实时运营决策;短视频、直播等新交易继续涌现…… 可以看到,阿里巴巴的数据中台建立是成功的,并且仍在高速向前发展。

MaxCompute 智能数仓让双11成为日常,湖仓一体逐步成为下一代大数据平台架构,DataWorks建立的数据中台全面服务交易,支持集团内数百个数据应用,通过全链路数据管理,以低老本增长支持集团交易高速增长。

数据平台建立的四个外围挑衅

一个数据中台建立的成功与否的外围指标,不是系统效率,不是平台效率,而是“数据效率”。 阿里巴巴主要从规模与弹性、数据的老本、数据的正确性与可维护性、数据利用率4个方面来衡量“数据效率”。

阿里数据中台底座的12年建立实践

在这个外围指标下,方法论、组织、平台本领则是数据中台成功的外围三要素。那么,数据平台要想建立好,背后究竟有哪些方法,建立过程中有哪些难点需要注意?背后要做的工作其实非常多,本次仅从面向交易的4个切面做介绍,暂未涉及保存、计较引擎等层面的挑衅。

挑衅一:数据财产管理系统

对于数据财产来说,首先要解决的一个成绩是:什么叫企业的数据财产?阿里巴巴的每个BU都有一个自己事业部的数据财产全景图,我们通过一张图统管阿里巴巴99.9%计较数据财产,每个部门的保存计较老本将全部量化,直接展现在管理者的面前。 第二个成绩:如何看财产?对于企业而言,财产难道就是一个个老本的数字吗?阿里巴巴通过数据财产的透视,让管理者知道我自己的数据来源于哪,服务给谁,谁又是我最好的合作伙伴,同时又可以满足数据流动审计的需求。 第三个成绩:如何进行财产的规模化?新的交易合并/收购/创新,如何将这套财产系统快速地复制?在DataWorks等工具中提供数据中台建模工具,能够为数据中台建立提供规范化图纸,针对不同的交易域进行划分,进行智能建模,让新交易快速复用之前成熟的数据架构,达到财产规模化的本领。

挑衅二:数据品质系统

对于数据品质来说,首先要先解决的一个成绩是:事前品质如何定义?金融行业经常提到一个概念叫对账,阿里巴巴数据也要对账,针对超过千万级别数据表的对账成绩,我们提了“品质法则”的概念。700多万品质法则,每天新增1万多条,人工要怎么配?阿里巴巴建立了37种法则模板,通过智能法则推荐匹配,采纳率达到75%。 第二个成绩:事中品质如何执行?700多万条品质法则需要耗费大量计较资源怎么办?通过什么方式来降低老本?我们通过智能化手艺建立了数据品质调度引擎、ETL引擎,数据变更后实时触发品质监控,采用优先级策略,进行空闲运行。 第三个成绩:事后品质如何自动化?法则写死了,但数据是活的,遇到周期性波动和变化怎么办?我们在数据品质建立的时候融入很多人工智能的手艺,通过机器学习方式学习数据生成的样子,能够对动态阈值进行智能预测,通过算法匹配周期性波动。

挑衅三:数据安全系统

对于数据安全来说,要解决如何降低使用老本,提高易用性;如何覆盖数据全生命周期;如何做权限管控;如何数据脱敏,如何识别敏感行为进行数据溯源等成绩,阿里巴巴内部沉淀了超过20项不同的安全管理法则,这些法则最终能够帮助平台在满足交易高速增长的情况下同时满足个人合规的要求。

挑衅四:数据管理系统

当数据管理进入深水区,数据老本增速如何不超过交易增速;如何调动全员管理的积极性,培养老本意识,在阿里巴巴,数据管理是引擎、平台和人的互相配合,引擎对算力和老本极致追求,持续打破快速增长的数据计较与老本增长的线性关系,平台通过保存健康分、计较健康分成为集团各团队数据管理战役的外围指标,推动人做数据管理和管理,利用平台全链路工具,建立数据管理手艺运营系统。通过这样的老本报表的方式把平台层的老本和价值展示清楚。 可以看出,在12年数据平台建立期间,阿里巴巴从数据的财产、品质、安全、管理等多个纬度沉淀出了数据中台产品化的本领。

作为中台底座,数据平台下一站走向何方

 

未来,作为中台的底座,数据中台将从数据智能到智能数据,“湖仓一体”满足架构灵活升级、“智能数仓”解决超大规模下的数据管理难题、“智能查询”极大降低数据分析门槛、AI的云原生化/规模化/标准化与普惠化让其成为大数据的终极出口,不断加速大数据与AI一体化的融合。

趋势一:一体两面的湖仓一体

阿里数据中台底座的12年建立实践

作为下一代数据平台架构,湖仓一体满足复杂现状下架构的灵活升级。数据仓库主打企业级数据,处理更精细、更经济、更高效。企业可以建立自己的数据中台,无论是引擎优化,还是数据管理,有一整套方法论以及支撑的工具。但是进入门槛很高,老本又贵,还有使用门槛。数据湖是脱胎于开源系统的手艺,进入门槛和老本较低,比较灵活,企业容易实现自建数据湖,只是数据分裂保存之外,企业需要进一步做各种精细化管理,希望数据能管理,能管理,老本低,还可运维。 如何打通数据湖和数据仓库割裂的系统,架构上融合数据湖的灵活性以及数据仓库的企业级本领,阿里巴巴提出的湖仓一体架构,分裂保存和元数据,打通数据系统,利用智能数仓手艺针对不同的数据和义务,做自动分类保存和处理。

趋势二:数据仓库进入“自动驾驶”时代

阿里数据中台底座的12年建立实践

 

超大规模数据带来管理难题,传统的“DBA模式”已经很难胜任。阿里巴巴有超过千万级别的表,很多外围数据开发工程师,一个人负责上万张表,没有办法做精细化的管理和建模,这样的系统不能随人的方式扩展,所以未来,越来越多的AI手艺会融合进大数据系统,进入“自动驾驶”时代。

趋势三:所查即所得,基于自然语言的智能数据查询

阿里巴巴正在数据之上尝试建立一个超大规模的知识图谱,通过知识图谱的方式做数据到语义层的翻译,再通过NLP(自然语言处理)等手艺跟用户做结合,形成一个桥梁。比如用户输入北京市互联网客户有哪些,就可以自动生成得到一份数据。阿里巴巴正试图把通过自然语言的智能查询在海量数据上用起来,规模化起来,让更多的非专业数据人员也可以独立完成数据分析工作。

趋势四:数据即智能,AI工程化的基础本领 

阿里数据中台底座的12年建立实践

数据需要智能的加速,AI是大数据的终极出口。我们知道,真正想把AI用起来是一个非常难的事情,从最初的数据兴起、数据提炼、模型训练、模型调优,再到模型部署和服务,整个链路非常长。如果我们有5万人可以直接使用数据,可能真正能用AI的人可能不超过5000人,那如何把AI手艺随着数据赋能给交易方,这就是所谓的AI工程化。

阿里数据中台底座的12年建立实践

最后总结一下,上述内容只是泛泛地提到了阿里数据中台底座建立的四个典型阶段,遇到的四大手艺挑衅,以及数据平台的四大手艺趋势等话题,这些内容还不是阿里巴巴数据中台的全部。通过12年时间,阿里巴巴数据平台建立已经有了非常多的手艺积累,这些平台本领也在不断推动数据中台向智能化进化,并且还会一直向前演进,服务阿里巴巴并输出给全社会。

 

给TA打赏
共{{data.count}}人
人已打赏
AI

DataWorks赋能企业一站式数据开发管理才智

2021-9-29 14:16:00

AI

海内外71支劲旅角逐青光眼AI,视杯盘支解恣意体素科技团队斩获第一

2021-10-1 7:35:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索