百分点大数据技术团队:数据处置“PAI”实施方法论

编者按数据作为第五大生产要素,已逐渐成为政府和企业决策的重要手段与依据。面对数据多样化、数据需要个性化、数据应用智能化的需要,以及在2B和2G行业中数据品质参差不齐、数据应用难以发挥价值、数据资产难以积淀等问题,如何做好数据处置职业、晋升数据处置本领成为了政府和企业数字化转型的重中之重。百分点大数据技术团队基于多年的数据处置项目经验,总结了一套做好数据处置职业及晋升数据处置本领的实施方法论。近年来,推动数据处置体系建设一直是业界探索的热点,另外,《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》将数

编者按

数据作为第五大生产要素,已逐渐成为政府和企业决策的重要手段与依据。面对数据多样化、数据需要个性化、数据应用智能化的需要,以及在2B和2G行业中数据品质参差不齐、数据应用难以发挥价值、数据资产难以积淀等问题,如何做好数据处置职业、晋升数据处置本领成为了政府和企业数字化转型的重中之重。

百分点大数据技术团队基于多年的数据处置项目经验,总结了一套做好数据处置职业及晋升数据处置本领的实施方法论。

近年来,推动数据处置体系建设一直是业界探索的热点,另外,《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》将数据作为第五大生产要素提出意义非同一般。但与劳动力等生产要素不同的是,数据是无形的,且数据孤岛林立,要想发挥数据价值,晋升数据处置本领是必要举措。

百分点结合多年政府各个部门及各类企业数据处置项目经验,提出数据处置项目开展过程中数据处置平台应具备4大本领:聚、治、通、用,以及项目实施总体指导思想:PDCA。

百分点大数据技术团队:数据处置“PAI”实施方法论

四大本领建设:

聚:数据汇聚本领,面对数据来源各异,数据类型纷繁多样,数据时效要求不一等各类情况,数据处置首先能把各类数据接入到平台中,“进的来”是第一步。

治:狭义数据处置本领,包括数据规范、数据品质、元数据、数据安全、数据生命周期、主数据。核心是保证数据规范的统一、借助元数据掌握数据资产分布情况及影响分析和血缘关系、数据品质地持续晋升、数据资产的安全可靠、数据资产的淘汰销毁机制以及核心主数据的统一及使用。

通:数据拉通整合本领,原始交易数据分散在各交易系统中,数据组织是以满足交易流转为前提。后续数据需要是根据实际交易对象开展而非各交易系统,所以需要根据交易实体重新组织数据。比如政府单位针对人的综合分析通常会涉及:财产、教育程度、五险一金、缴税、家庭成员等,需要以身份证号拉通房管局、交通局、教育局、人社局、税务局、卫健委等多个委办局数据。数据拉通整合本领是后续满足多样化需要分析的基础,是数据资产积累积淀的根基,也是平台建设的另一个重点。

用:数据服务本领,数据资产只有真正赋能于前端交易才能发挥实际效用,所以如何让交易部门快速找到并便利的使用所需数据资产是数据处置平台的另一项核心本领。

P:plan,规范、规划、过程制定;D:do,产品工具辅助落地;C:check,交易技术双重检查保证;A:action,持续优化晋升数据品质及服务。

百分点大数据技术团队:数据处置“PAI”实施方法论

结合数据处置项目实际落地实施过程以四大本领构建、PDCA实施指导思想提出了“PAI”实施方法论,即过程化(process-oriented)、自动化(automation)、智能化(intelligence)三化论,以逐步递进办法不断晋升数据处置本领,为政府和企业后续的数据赋能交易及数据催生交易创新打下坚实基础。

过程化将数据处置项目执行过程举行过程化梳理,同时规范过程节点中的规范输入输出,并将规范输入输出模板化。另外对各过程节点的重点注意事项举行提示。

自动化针对过程化之后的相关节点及规范输入输出举行自动化开发,减轻人力负担,让大家将精力放在交易层面及新技术拓展上,避免重复人力职业。如自动化数据接入及自动化底本开发等。

智能化针对新项目或是新领域结合历史项目经验及积淀给出推荐实质,比如模型创建、数据品质稽核规则等。

一、数据处置过程化

因数据处置类项目通常采用瀑布式开发模式,核心过程包含:需要、设想、开发、测试、上线等阶段,过程化是将交付过程步骤举行详细分解并对项目组及客户职业实质举行提炼及规范,明白每个过程的规范输入、输出实质。过程节点、节点产出物及数据处置平台四大本领对应关系如下所示:

百分点大数据技术团队:数据处置“PAI”实施方法论

其中因需要、概要设想和详细设想为执行过程中的核心过程节点,将针对此三部分举行详细讲解。

1. 需要调研

1.1 需要调研过程

数据类项目总体调研过程如下:

百分点大数据技术团队:数据处置“PAI”实施方法论

数据调研是整个项目的基础,既要详细掌握现有交易现状及数据情况又要准确获取客户需要,明白项目建设目标。如上图所示总体分成三个大的时间节点:包括需要调研准备、需要调研实施及需要调研后期的梳理确认。

需要调研准备包括:调研计划确定、调研前准备,具备条件的尽量开一次调研需要见面会(项目启动会介绍过的可以不需要再组织)。其中调研前准备需针对客户的组织架构及交易情况举行充分的了解,以便在后续的调研实施阶段有的放矢,调研实质更为详实,客户需要把控更为准确。

调研实施阶段一般组织两轮调研,第一论主要是了解交易运转现状、对接交易数据以及客户需要。第二轮针对具体的交易和数据的细节问题举行确认,及分析后的客户需要与客户确认。对于部分系统的细节问题以线下办法对接,不再做第三轮整体调研。

需要调研后期主要是针对客户需要及客户交易及数据现状举行内外部评审并确认签字,以《需要规格说明书》形式明白本期项目建设目录。

1.2 需要调研职业事项

百分点大数据技术团队:数据处置“PAI”实施方法论

上表描述了需要调研过程关键节点的客户方及项目组职业实质实质及输入输出,并说明了需要调研阶段的总体原则、调研办法及相关要求。

1.3 需要调研注意事项

(1)需要收集

关键干系人需要

真正用户是谁及其需要

需要获取前置问题:客户管什么,重点关注什么,目前如何管理,欠缺什么,重复劳动有哪些?

(2)需要验证

3W验证,谁来用,什么场景下用,解决哪些问题?

原型草图

(3)需要管理

核心需要(需要需融入交易过程并发挥实际效用)

识别是否行业共性(有余力则做没有则算,项目管理角度不需要,行业角度需要)

(4)需要确认

形成文字版需要规格说明书

务必签字确认(后续可以更改,大变更需记录)

2. 概要设想

数据处置项目概要设想主要涵盖网络架构、数据流架构、规范库建设、数据仓库建设四部分实质。总体目标是明白数据如何进出数据处置平台(明白网络情况)、数据在平台内部如何组织及流动(数据流架构及数据仓库模型)以及数据在平台内部应遵循哪些规范及规范(规范库)。针对每部分具体职业事项及输入、输出如下所示:

百分点大数据技术团队:数据处置“PAI”实施方法论

2.1 网络架构示意图

百分点大数据技术团队:数据处置“PAI”实施方法论

网络架构要明白硬件部署方案、待接入系统网络情况及后续使用人群及访问系统办法,以便满足数据接入及数据服务需要。

2.2 数据流示意图

百分点大数据技术团队:数据处置“PAI”实施方法论

数据流架构要明白各类数据的处理办法及流向,以便确认后续数据加工及存储办法。

2.3 数据规范实质示意图

百分点大数据技术团队:数据处置“PAI”实施方法论

规范库建设要明白平台所遵循的各类规范及规范,以保证平台建设过程的统一规范,为后续交易赋能打下坚实基础。

2.4 数据仓库主题域及核心实体示意图

百分点大数据技术团队:数据处置“PAI”实施方法论

数据仓库建设要明白主题域及关键实体,明白后续数据拉通整合的实体对象,以更好地支撑繁杂多变的数据需要。

3. 详细设想

详细设想针对项目实际落地的职业模块分别举行设想,明白每部分实现的设想,具体模块、职业实质、输入、输出如下所示:

百分点大数据技术团队:数据处置“PAI”实施方法论

二、数据处置自动化

在将数据处置项目过程化以后整个职业实质及具体职业产出已经比较明白了,但是会发现过程中会涉及到大量的开发职业,同时发现很多职业具有较高的重复性或相似性,开发使用的过程及技术都是一样的只是配置不同,因此针对过程化以后各节点的自动化开发应运而生。通过配置任务的个性化部分,然后统一生成对应的开发任务或底本即可完成开发。

自动化处理一般有两种实现路径,其一是采购成熟数据处置软件,其二是自研开发相应工具。其中数据处置过程中可实现自动化处理的过程节点如“工序”标蓝色部分:

百分点大数据技术团队:数据处置“PAI”实施方法论

注:对于需要调研、模型设想等过程节点因为涉及到线下的访谈、交易的理解更多的是与人的沟通交流,进而获取相应的交易知识及需要,并非单纯的计算机语言同时“因人而异”的情况也比较常见,所以此部分相关职业暂时还以人工为主。

因数据接入、底本开发及数据品质稽核在日常职业中占用时间较长,下面将详细讲解此三部分实质。

1. 批量数据接入

数据接入是所有数据处置平台的第一步,批量数据接入占数据接入职业量的70-90%之间。自动化处理即将任务个性化部分举行抽象化形成配置项,通过配置任务的抽象化配置项,进而生成对应的任务。批量数据接入抽象以后的配置项如下:

源系统:源系统数据库类型

源库名:源系统数据库库名称(数据库的链接办法在其他地方统一管理)

源表名:源系统数据库库表名称

目标系统:目标数据库类型

目标库:目标数据库库名称

目标表:目标数据库库表名

增/全量:1表示全量接,0表示增量接

百分点大数据技术团队:数据处置“PAI”实施方法论

示例配置如上,不管使用sqoop、datax等办法都可以批量生成对应命令或配置文件,实现批量生成接入作业,实现自动化数据接入职业,数据接入效率晋升75%以上,后续只需验证数据接入正确性即可。

2. 底本开发

资源库、主题库的加工底本占整体开发职业职业的50%-80%,同时经过对此部分数据加工办法举行特定分析后,数据常用的处理办法如下一般有以下几种类型:

百分点大数据技术团队:数据处置“PAI”实施方法论

将以上加工办法举行总结后可积淀出以下几种数据处理办法:

百分点大数据技术团队:数据处置“PAI”实施方法论

结合Mapping文档选定以上数据处理办法的一种即可自动生成资源库或主题库对应底本,开发效率得到大幅度晋升,整体效率晋升60%以上(模型及Mapping设想尚需人工处理)。

3. DQC

数据品质是PDCA实施总体指导思想的关键一步,是发现数据问题以及检查数据规范规范落地的必须环节。针对具体的规则都可以通过产品和自助开发来实现,只需举行相应配置即可实现自动化检查,具体检查事项如下:

百分点大数据技术团队:数据处置“PAI”实施方法论

三、数据处置智能化

经过自动化阶段以后数据处置过程中数据仓库模型设想、Mapping映射等阶段依旧有非常多人工处理职业,这些职业大部分跟交易领域知识及实际数据情况强相关,依赖专业的交易知识和行业经验才可举行合理地规划和设想。如何快速精通行业知识和晋升行业经验是数据处置过程中新的“拦路虎”。如何更好地积淀和积累行业知识,自动地提供设想和处理的建议是数据处置“深水区”面临的一个新的挑战。数据处置智能化将为我们的数据处置职业开辟一个 “新天地”。

在整个数据处置过程中智能化可以发挥作用的的节点如“工序”标红色部分:

百分点大数据技术团队:数据处置“PAI”实施方法论

实现智能化的第一步是如何积累交易知识及行业经验,形成知识库。数据处置知识库应包括:规范文件、模型(数据元)、DQC规则及数据清洗方案、底本数据处理算法、指标库、交易知识问答库等,具体涵盖实质及总体过程如下图所示:

百分点大数据技术团队:数据处置“PAI”实施方法论

1.  规范文件

在2B和2G行业尤其是2G行业,国家、行业、地方都发布了大量的规范文件,在交易和技术层面都举行了相关约束,并且指导新建交易系统的开发。规范文件知识库涵盖几个方面:a.国标、行标、地标等规范的在线查看 b.相关规范的在线全文检索 c.规范具体实质的结构化解析。

2.  数据元(模型)

对于不同行业来说技术规范中的命名以及模型是目前大家都比较关注的,也是在做数据中台类项目以及数据处置项目比较耗时的地方,在金融领域已经比较稳定的主题模型在其他行业尚未形成统一,所以对于做2B和2G市场的企业如何能积淀出特定行业的数据元规范甚至是主题模型,对于行业理解及后续同类项目交付就至关重要。具体包括:实体分类、实体名称名称、中文名称、英文名称、数据类型、引用规范等。

3.  DQC(数据品质稽核)&数据清洗方案

数据处置的关键点是晋升数据处置,所以不同行业及各个行业通用的数据品质清洗方案及数据品质稽核的积淀就尤为重要,比如通用规则校验身份证号18位校验(15转18)、手机号为11位(如有国际电话需加国家代码)、日期格式、邮箱格式等。

4.  底本开发

在数据类项目中,数据mapping确认以后就是具体的开发了,由于数据处理办法的共性,可以高度提炼成特定类型的数据处理,比如交易流水一般采用追加的办法,每日新增数据append进来即可。状态类的历史拉链表形式等。此过程中的步骤都可以通过自动化程序来实现,同时借助于上面积淀的具体规范实质,进一步规范化底本开发。

5.  指标库

对于一个行业的理解一定程度上体现在行业指标体系的建立,行业常用指标是否覆盖全,指标加工规则是否有歧义是非常重要的两个考核项,行业指标库的建立对于交易知识的积累至关重要。

6.  交易知识问答库

百分点大数据技术团队:数据处置“PAI”实施方法论

行业知识积累的最直观体现是交易知识问答库的建立,各类交易知识都可以逐步积淀到问答库中,并以问答等多种交互办法更便利的服务于各类使用人员。比如生态环境领域AQI的计算规则,空气常见污染因子、各类污染指标的排放限值等,都可以以问答对形式举行积淀。

百分点大数据技术团队:数据处置“PAI”实施方法论

基于以上知识的不断积淀积累,在数据处置开展过程中即可举行智能化推荐。如上图所示,在做实体及属性认定时结合NLP技术和知识库规则即可举行相似度认定推荐。

并且随着行业知识的不断积累和完善后期可以直接推荐行业主题模型及主数据模型,以及针对实体及属性的数据规范、数据品质检查规则的推荐。

总结

过程化是数据处置职业开展第一步,是自动化和智能化的基础,将数据处置各节点开展过程中用到的实质举行梳理并规范,包括:交易过程图、网络架构图、交易系统台账等,行业知识梳理完善以后形成行业版知识(抽离通用版),如规范文件梳理:1.代码表整理,2.数据元规范整理(数据仓库行业模型对应规范梳理)。

自动化是将过程化规范后的职业举行自动化开发,涉及仓库模型设想、规范化、底本开发、DQC、指标体系自动化构建,包括:自动化程序生成和自动化检查。自动程序生成一是解放生产力,提高效率而是晋升开发的规范化。自动化检查包括:1.发现数据问题,出具品质报告(唯一性、空值等通用问题),2.行业知识检查(行业版内置,不同行业关注的重要数据问题,并且会不断完善知识库)。

智能化是在过程化、自动化基础之上针对数据拉通整合、主题模型、数据加工检查给出智能化建议,减少人工分析的职业。

总体思路先解决项目上规范化执行问题,然后晋升建设效率及处理规范化问题(自动化处理),最后基于交易知识的积淀最终实现全过程智能化构建。

给TA打赏
共{{data.count}}人
人已打赏
AI

悉尼大学教授陶大程加入京东,出任京东试探研究院院长

2021-3-9 16:27:00

AI

百分点科技:媒介数据中台建造方法论和落地实践

2021-3-10 17:04:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索