编者按
媒介融合下半场的重心将向智能化趋势发展。如何打造实用有效的媒介数据产品和办事,继而完成数智化转型,已成为媒介行业当前最为关注的问题。
本文围绕当前媒介机构的转型需求,百分点科技大数据技术团队体系地介绍了百分点科技媒介数据中台建造方法论及实践成果。
一、媒介数据中台建造背景
以报纸、出版、广播电视等为代表的传统媒介,和以网站、新闻客户端、微博、微信公众号、IPTV、OTT等为代表的新媒介产品,无论是呈现方式、传播途径,还是建造目标、技术体系都大不相同,这就导致了体系建造重复浪费、各运用体系和宣布渠道各自为政,出现营业体系之间相关割裂、隔离,数据规范不规范,以及各体系数据难以融会贯通、数据质量无保证、数据不能有效利用和无法响应快速的营业迭代创新等问题。
传统的媒介技术架构体系已经很难满足媒介行业当前营业需求,而中台恰恰可以很好地解决这些问题。媒介数据中台以实质建造为根本,基于互联网思维,会聚社内外数据资本,围绕实质、渠道、平台、经营、经管等方面的建造需求,形成“数据整合、威力共享、运用创新”的媒介数据中台办事体系,可以为前台运用供应媒介生产辅助、媒介运营辅助、媒介宣布端运用、媒介智库等威力支撑。
通过媒介数据中台的建造,能够向前赋能营业,完成营业与运用的创新;向后沉淀数据,完成数据的整合,做厚做强数据支撑。因此,媒介数据中台带来的是从新闻选题、实质生产、质量把控、宣布渠道、传播效果、实质运营等多个方面举行提升与转变。通过媒介数据中台架构将“数据威力下沉、营业运用上浮”,打造“大中台、小前台”的技术布局,形成可持续的媒介数据与办事支撑平台。
二、媒介数据中台建造方法论
媒介数据中台是一个涵盖数据采集、数据处理、数据财产经管、数据治理、数据办事、数据剖析和数据运用等多个层次的综合平台。不仅会聚媒介机构内外资本,还要供应统一的数据保存、构建统一的数据规范与数据资本经管、供应统一的基础数据办事给营业方。同时,为了加强媒介机构大数据剖析威力,还必要引入智能剖析办事,完成满足营业必要的各类公共性智能剖析运用办事。
媒介数据中台整体建造目标,主要是提高办事复用率,赋予营业快速创新威力,最终打造成为平台化、财产化、智能化、场景化、办事化的“中央厨房”式融媒介数据平台。
1. 媒介数据中台四大组成部分
媒介数据中台从战略构建维度来说,包括数据财产经管平台、数据智能剖析平台、资本宣布与揭示平台、资本办事共享平台等部分:数据财产经管平台的本质是将数据财产化;数据智能剖析平台的本质是将数据智能化;资本宣布与揭示平台的本质是将数据场景化;资本办事共享平台的本质是将数据办事化。
(1)数据财产经管平台
数据财产经管平台主要是为了构建媒介数据财产的管控威力,是一个集数据采集、融合、治理、组织经管、智能剖析为一体的数据平台,最终数据将以办事方式供应给前台运用,以提升营业运行效率、持续促进营业创新为目标。最终产出是适用于各个营业的主题库,辅助新闻生产、智能宣布、媒介运营和舆情剖析等营业场景。
数据财产经管平台可完成对媒介机构内的稿件数据、产品数据、运营数据、行为数据,以及外部互联网资本和等各类数据资本有效会聚与经管,通过建造统一的数据规范与数据资本经管,完成统一的基础数据办事给营业方。
同时,以数据多样性的全域思想为指导,媒介数据中台一般会采集与引入全营业(采编、供稿等)、多终端(PC、H5、APP等)、多形态(自身营业体系、三方购买、互联网定向抓取)的数据,完成媒介数据资本的有效利用与融合。通过AI智能技术与人工相结合的方式,开展文字、图片、音视频的数据标引工作,完成实质资本的数据化,充分挖掘数据之间的关联关系,提升数据的潜在价值。利用自动专题、定制专题等功能完成营业库、专题库的快速生成,供应敏捷建库的威力。
(2) 数据智能剖析平台
数据智能剖析平台供应认知智能和营业智能两种类型的AI威力。其中,认知智能主要是基于机器学习、深度学习及迁移学习等人工智能技术,供应自然语言处理、图片识别、OCR识别和视频剖析等基础威力。营业智能以基础智能为基础,对基础智能举行组织封装,包含一系列营业上通用的基础办事威力,对数据层面供应数据的深层次加工,对营业层面供应营业的深层次剖析,营业智能包括智能推荐、用户画像、实质标引、专题剖析、实质审校和智能专题等。通过大数据中心威力平台的构建,提升媒介机构智能处理威力,有助于完成威力复用,降低开发成本,完成产品创新。
数据智能剖析平台的目标是构建媒介AI威力,对社内外供应AI威力支撑,完成媒介从数字化到智能化的转型升级,为媒介生产、智能宣布、媒介运营、传播效果评估和舆情剖析供应智能辅助。
(3)资本宣布与揭示平台
可以说资本宣布与揭示平台是整个媒介数据中台的脸面,对于媒介机构而言,可以将数据和威力统一封装后集中揭示,是办事于相关用户的共享资本统一门户,完成共享资本的统一呈现,以及资本的检索、资本的灵活组织与页面宣布,同时供应灵活的权限经管,打造“一门式”办事平台。
资本宣布与揭示平台主要包括两个部分,前台资本揭示部分和后台资本宣布部分。前台揭示为媒介数据中台的实质数据供应浏览和使用,包括网站门户首页、浏览频道、浏览文章和智能检索威力集成等。后台经管主要是用户和实质的经管,包括实质经管、菜单经管、模板经管、标记经管和用户经管等。
(4)资本办事共享子平台
当媒介机构有效整合分散异构的信息资本,消除“信息孤岛”桎梏,形成了自己的数据财产和AI威力以后,接下来就必要将这些威力对外供应办事了,完成他们的价值,资本办事共享的需求应运而生了。
目前企业资本共享主要面临三个问题,一是数据需求方因为数据格式不统一、数据提取效率低、无法直接获取数据。二是数据所有方由于开发效率低、数据授权经管体系不完善、供应数据办事方式不够快捷、调用关系复杂等问题也无法高效地经管。三是数据需求方与数据所有方无法完成无缝数据互联互通,且供应数据办事方式单一,无法满足大数据时代的多场景共享需求。
资本办事共享平台会把数据威力、剖析威力以微办事的形式封装成统一口径的API办事接口,从而对外供应数据办事与威力的支撑,形成数据办事资本目录,完成数据接口的开始快速开发与对外宣布,实时响应营业端的数据办事威力要求。通过简单可视化配置的方式就可以完成数据接口API的创建、API宣布、API版本经管、API文档经管等问题,降低日常运维成本。
因此,整个媒介数据中台由以上四个平台举行相关支撑与配合,共同构成媒介数据中台整体体系架构,贯穿数据采集、保存、剖析和宣布等的全流程。
2. 数据架构设计
数据中台整体架构如上图所示,可以划分为资本会聚、数据预处理、数据入库、数据整理、数据财产、数据办事等过程。
数据资本会聚包括数据采集和数据集成。这些资本数据主要来源于实质生产数据、第三方数据、互联网定向数据等,包括稿件、报刊、期刊、社交媒介、移动客户端、网站等数据类型。支持数据库、文件、流式等多种接入方式对多源异构数据举行接入,将数据资本会聚整合。值得注意的是,会聚过程必要针对目前营业体系的规划完成会聚处理,并对数据举行统一的保存规划。
数据预处理主要是对数据举行初步的清洗和规范化等预处理工作。数据入库前的预处理会举行字段解析、映射、转换以及处理字段的残缺、错误、数据去重等工作。清洗之后的数据必要举行规范化处理,将不同格式的数据按照统一数据格式规范转换。同时,数据入库前一般必要举行自动标引、数据分类等工作:针对文本数据,会举行自动分类、自动摘要、关键词、情感剖析等方面的识别和标签提取;针对图片类型数据,会举行图片人物、图片场景、图片属性、新闻事件、地标建筑等方面的识别和标签提取;针对音频数据,会举行语音识别、音频属性、新闻事件等方面的识别和实质提取;针对视频数据,会举行视频人物、视频场景、视频属性、新闻事件、地标建筑等方面的识别和标签提取。
数据入库是对解析后的文本、图片、音视频、文件等数据举行分层分区保存。待入库的数据必要保证数据的完整性、规范性和时效性,必须按照平台要求的数据格式规范统一举行转换后入库。
数据整理的主要是对入库的数据举行人工标引、数据集成等工作,通过数据选取、标引、校对等功能,对数据举行标引和有序地组织、检索和揭示。同时,可以根据标签会聚资本专区,形成办事接口供第三方体系调用,通过人工标引这种方式,来提升数据的标签准确度,为一些重要专题制作的准确性打下基础。
数据财产环节是把接入的数据基于营业现状及未来规划举行数据财产划分,对接入的数据举行深层级的加工、完成数据资本的分类经管、元数据经管、财产经管。媒介数据财产主要由实质库和主题库两个部分组成,营业库是基于营业体系构建的,为前台营业供应诸如专题库、语料库、实体库、知识库等营业为导向的数据财产。而主题库是为了应对快速建库需求,通过简单的检索筛选,形成满足营业需求的主题库,降低了数据开发成本。
数据威力和智能剖析威力全部以微办事的形式对外供应调用,由数据中台保证数据办事的性能和稳定性、数据质量和准确性,完成办事的统一管控和综合治理。
3. 媒介数据中台建造的三个阶段
一次性建造完成媒介数据中台全部实质比较困难,很多公司都是分阶段举行的,特别是传统媒介单位,很多营业还没有完成数字化,别说建造数据中台了。媒介数据中台整体规划建造采用“分阶段,垂直营业分批”的思路举行。整个媒介数据中台可以分为三个阶段举行建造。
阶段1:基础平台建造
建造目标:
媒介数据中台第一阶段主要以搭框架、建规范、聚数据为主。第一阶段建造的要务是与各部门的生产数据打通,建立统一的数据接入、数据分类、数据接口、数据保存规范,优先对影响营业开展的基础性数据举行接入工作。同时梳理数据分类规范,通过文本智能处理威力完成自动分类、摘要、关键词、情感剖析等方面的识别和标签提取,并支持对数据实质和分类体系举行加工与维护。同时平台面供应满足不同营业的基本数据办事与页面威力的支撑。面向数据经管人员供应资本经管功能,完成对实质的加工与分类。面向开发人员供应基础的数据办事接口,供应资本检索、查看、下载等接口办事。面向用户供应资本门户访问办事,支持用户对数据资本举行查看与检索。
建造实质:
整体技术架构搭建
建立数据接入、数据保存规范
分类规范梳理、分类规范体系的建立
重要基础性数据的接入
文本智能处理威力建造
资本经管(实质经管、分类体系经管)建造
资本门户(资本揭示、资本检索)建造
基础数据办事(部分)建造
建造成果:
建造完成数据接入、数据保存、数据分类、数据办事规范;
建造完成自动分类、摘要、关键词提取、命名实体等文本智能处理威力建造;
建造完成数据财产经管平台中对入库资本的实质经管、分类体系经管功能;
建造完成资本宣布与揭示平台其中资本门户部分的资本揭示、资本检索功能;
建造完成资本检索、资本下载等基础数据办事。
阶段2:数据整合威力增强
建造目标:
媒介数据中台第二阶段主要以数据深度加工整理、数据智能办事、快速建库与实质宣布作为阶段目标。第二阶段会引入人工标引威力,通过标引工具可以完成数据选取、标引、校对等流程,深挖数据的价值。标引完的稿件可通过标签举行组织、检索、揭示,同时可利用标签完成数据聚合,为快速生成专题库打下基础。
快速建库将专题数据自动会聚与人工加工相结合,使用机器学习的聚类算法自动发现并生成专题类簇,通过人工对类簇打专题标签的方式,达到专题的自动发现与制作的功能。同时定制专题面向营业人员供应以“专题”为核心的资本会聚办事,通过相关(关键词、实体词、分类标签、属性等)维度组合,完成历史数据、实时数据的快速会聚。实质宣布支持专题页面的快速生成,通过模板技术完成专题页面的呈现与访问。同时本阶段会对检索威力、推荐威力举行提升,供应智能纠错、智能补全、智能联想、语义搜索、实质推荐等功能,优化实质检索和推荐的效果,提升用户的体验。在数据办事方面,会加强对数据办事的经管与监控,对数据办事举行统一的注册与授权、形成数据办事目录,对外供应办事威力的支撑。
建造实质:
人工标引威力(数据选取、任务分配、数据标引、标引工作量统计)建造
智能检索威力(二次检索、拼音检索、智能纠错、智能补全、智能联想、语义搜索等)检索
智能推荐威力(实质推荐、热门推荐、关联推荐等)检索
数据办事目录建造
快速建库威力(专题聚类、专题定制、专题经管)建造
快速页面宣布威力(模板经管、专题宣布)的建造
建造成果:
建造完成数据财产经管平台中数据标引模块数据选取、任务分配、数据标引、标引工作量统计功能;
建造完成数据财产经管平台中专题经管模块专题聚类、专题定制、专题经管功能;
建造完成资本宣布与揭示平台其中宣布经管模块的模板经管、专题宣布功能;
建造完成资本检索、资本下载等基础数据办事,形成数据订阅类、数据检索类、智能剖析类、数据统计类等办事目录和办事。
阶段3:威力持续提升
建造目标:
媒介数据中台第三阶段主要以辅助实质生产和媒介运营、数据的多维统计及大屏可视化、数据智能剖析作为阶段目标。通过人工智能与大数据技术,赋能融媒介转型升级,为未来营业创新供应更多的技术支撑。构建驱动信息采集、选题策划、辅助生产、用户画像、渠道分发、传播效果监测、舆论监督等功能的智能化、精准化、实时化,助力媒介单位完成生产力、引导力、影响力、公信力上的提升。媒介生产辅助运用主要用来支撑选题策划、新闻采访、新闻编辑、新闻审校、新闻宣布等营业流程,供应智能选题、新闻采写、媒介资本库、智能专题、个性化推荐等生产辅助威力。媒介运营辅助运用供应媒介传播剖析、媒介影响力剖析、用户全息画像、决策剖析等运营辅助威力。
建造实质:
数据多维统计及大屏可视化
图片、音视频智能剖析
智能勘误威力
用户标签画像
用户运营剖析
传播效果评估剖析
其他运用体系支持对接
… ….
建造成果:
建造完成资本宣布与揭示平台中大屏可视化、指标统计等功能;
建造完成数据智能剖析平台中认知智能相关功能与运用;
建造完成数据智能剖析平台中营业智能相关辅助实质生产和媒介运营运用。
4. 媒介数据中台落地实施流程
(1)数据调研
通过数据盘点让数据成为财产,了解企业有哪些数据,在哪里,有多少量级。主要包含营业流程梳理、数据流程梳理、数据识别和分类等工作。
盘点必要接入的结构化、半结构化、非结构化数据,通过调研表和访谈的方式收集数据信息。数据源通常包括报纸、期刊、网站、APP、社交媒介等。确认是否必要举行历史数据迁移。
结构化数据必要收集的信息通常包括:
数据接入信息:重点包括体系信息、数据库信息、经管人信息、数据量信息、加密机制信息、增量信息、可接入库表信息等;
数据字典:表结构收集,主要包括表的主外键、各字段的定义规则、校验规则等;
代码表:体系中所使用的的代码表信息收集;
数据整合规则:数据实质冲突时整合规则的收集。
非结构化数据必要收集的信息通常包括:
非结构化数据用途;
保存位置,元数据如何获取;
文件种类;
文件实质解析、格式转换、是否必要抽取实质;
以何种方式返回使用。
(2)架构设计与技术选型
根据项目需求确定总体设计思路,举行总体体系架构、技术架构和运用架构设计。在此基础上确定总体数据规划,根据数据的数据类型和营业使用场景、展现形式,设计相应的保存方式,以满足数据办事要求。必要时可以举行集中测试,通过读写速度、可靠性等指标的测试结果综合判断,最终决定数据保存选型。
(3)数据规范体系制定
结合国家规范、行业规范和实际营业,梳理、摸底各数据源数据情况,对关键营业过程数据、营业结果数据制定数据接入规范,数据分类规范、数据保存规范、数据办事规范。
接入规范。数据接入负责将各种资本统一接入到数据中台中来。必要制定相应的数据接入规范,适配不同数据接入需求,能够供应数据库、消息队列、API、文件等常用接入方式。新增数据类型只要符合数据接入规范,都可以举行接入。通过这种规范的数据接入管道和扩展方式,可以灵活的响应营业侧的不断变化的接入需求,保证数据接入的通用性和统一性。
分类规范。参考《新闻资料分类法》、《中国新闻信息分类法》等国内外分类规范,以现有的分类体系为基础,结合数据实际特点配合客户完成设计、调整及完善分类体系工作。
保存规范。对于多种数据来源的不同数据类型必要确定相应的字段转换、保存方式,与保存规范。规范数据保存组件、保存路径、保存格式、副本策略、备份机制等实质,对数据举行分层分区设计,保证数据保存的合理性以及扩展性。
办事规范。整理必要建造的办事清单,对办事清单中的接口举行分类。根据办事接口承载营业类型,对办事举行拆分。定义数据接口访问方式、访问路径、请求格式、返回结果格式、以及返回状态码类型,保证数据办事整体的规范性和一致性。
(4)数据模型设计
数据模型设计。媒介数据是非结构化性非常强的,与传统行业数仓最大的区别是媒介行业90%以上数据都是非结构化的,如文本、图片、视频等。因此必要根据营业场景以及多种异构数据源,数据保存采用分区分域、分层分级的设计思路,创建原始库、营业库、主题库、知识库等。
(5)数据接入
通过数据接入,建立数据规范化流程,完成数据的采集与清洗、规范化。
数据规范化将各种资本统一接入到数据中台。
支持文字、图片、音视频、文件、结构化和非结构化等不同数据类型。
接入方式可灵活配置经管,能够适应不同数据资本接入,保证数据的完整性。
数据接口具备良好的容错性和安全性,避免因数据接口问题影响整体体系的稳定性和可靠性。
具有可视化WEB配置经管和运维经管界面,支持数据经管人员举行接入任务各要素的配置和定义,支持举行数据接入任务的监控和日常运维操作,支持数据接入过程可记录,对采集体系工作结果供应报告;支持数据接入体系异常告警威力,主动反馈数据接入故障等信息。
(6)数据预处理
数据清洗:在接入数据时举行数据的有效性检验和过滤排重等数据预处理工作,确保数据质量。对数据举行解析、字段的映射,完成数据的规范化操作。
基于媒介行业数据的特征,数据预处理采取批流结合的方式解决营业场景对数据的要求。数据从不同数据源过来,如API、MQ、log、file等,数据要在实时计算中做文本去重、数据结构化、实质标签化和轻度的实时统计等操作,数据保存之后必要举行主题建造、关系挖掘、知识图谱计算和算法训练,因此必要通过批流结合的处理方式来满足对数据本身威力的必要。
其中实质标签化就是通过自动标引方式理解新闻,理解新闻与哪些信息相关,基于文本挖掘的手段,完成对实质数据的分类打标。
自动标引具体来说就是调用中文语义接口,对入库数据举行标签化,主要标签有关键词、文本分类、自动摘要、中文分词、词性标引、命名实体等。
文本实施流程:
梳理并制订文本分类体系;
开发文本程序;
部署文本程序;
数据接入过程中调用文本接口;
根据返回结果人工标引训练模型提高准确率。
(7)数据分层保存
整个数据架构根据现有的数据财产状况,合理的选择设计相关数据架构及体系架构模型,以支撑平台现在及未来几年内对数据的保存压力要求以及对外办事的需求。
(8)数据加工
通过数据加工,重新组织数据,让数据变得更好用。通过人工标引方式,梳理重要报道数据,建立报道标签维度。并根据需求和数据实质梳理标引规范,形成作业指导书。对标引的结果举行校对、全检、标签修改等操作,通过标引会聚成专题。
平台会将所有数据分成不同主题,按不同主题举行建造、存放和加工。媒介是一个非常复杂的行业,对各个行业的数据都是有诉求的,媒介必要挖掘大量不同行业的数据支撑新闻生产和报道,数据进来之后,再挖掘潜在的新闻点,生成选题策划,帮助用户做选题等工作。
(9)数据治理
数据治理贯彻执行在整个数据处理流程中每一个阶段,数据治理保证数据是被经管的,数据经管则保证被经管的数据完成指定的目标。指导和监督元数据经管、规范经管、质量经管、安全经管等功能具体数据管控。质量经管主要通过剖析源体系表数据,从及时性、完整性、准确性、有效性、一致性方面对源体系数据举行数据校验,发现并记录数据质量问题,生成数据质量问题报告。元数据经管描述了数据在使用流程中的信息,通过血缘剖析可以完成关键信息的追踪和记录,影响剖析帮助了解剖析对象的下游数据信息,快速掌握元数据变更可能造成的影响。数据经管是数据治理的延伸,包含数据财产视图、智能搜索等功能。
(10)威力整合
整合数据资本经管、数据办事、数据宣布等威力,通过体系化的平台建造,完成对营业体系和运用开发供应更加高效、简洁、灵活的数据办事,使得上层运用不会受限于底层多变的数据格式、数据类型、数据处理和经管逻辑以及复杂的基础架构建造和运维,最大限度的释放数据的价值。
数据平台威力整合与开放主要有三个方面。
第一,数据的整合与开放。任何数据进到平台之后,都会在整个大数据处理链条中举行计算、整合、实质结构化,以及加入标签等处理,同时基于用户感兴趣的数据范围,做标签的特征过滤,筛选用户想要的数据。
第二,供应智能剖析威力的整合与开放。通过开放算法威力,帮助用户做数据威力和算法威力的运用,供应文本实质实体识别办事、文本去重判定办事、图像人物识别办事和图像标签化办事等。
第三,产品威力的整合与开放,例如,将用户画像、实质推荐、传播剖析等威力对外开放。
5. 媒介数据中台落地实践
目前百分点科技已办事众多国家级的报业和出版客户,包括新华社、中国日报、科技日报、新华网、南方报业、人民出版社等。
比如,为南方报业建立的媒介智能数据中台,对全媒介大数据的资本举行采集,并对采集到的海量全媒介数据举行分布式保存、高效检索、智能剖析。目前,南方数据办事平台已经拥有上千个数据库集,上百种数据智能运用工具,能够供应多端融合采编辅助支撑,如热点聚类、主题延展、实质摘要、机器翻译、机器人协作、实体影响力画像和个性化推荐等新技术新运用,帮助南方报业夯实数据办事威力,以数据和AI威力为策采编发各个环节赋能。
百分点科技还为新华社搭建了全媒介中台,尤其在去年疫情期间,分别仅用一个月时间便快速构建并推出了“两会报道”专题和“习总书记出访”专题两个新闻运用创新产品。通过中台供应的专业化数据办事,助力全媒介采编。
总结
总结来看,当媒介机构具有一定的数据基础和营业规模,即自身数据多样、营业规模不断扩大、营业相互独立,就必要全媒介中台帮助其解决效率、成本和质量的问题。而全媒介中台的建造必要自上而下,必要举行详尽的前期规划设计,必须符合各媒介机构的实际情况,且不可全盘照搬,要结合实际情况举行取舍调整,才能达到价值最大化,驱动媒介的数智化转型。
南方报业传媒集团作为百分点科技在媒介领域长期办事的合作伙伴,一直走在媒介智能化转型前沿,其集团副总编辑曹轲认为,这其中的难点和挑战在于,从传媒到数据、从传播到办事、从采访到采集、从对内到对外,动能转换的过程必要转换思路、转换机制、转换形态,通过用数据、养数据、聚数据、管数据,从数据化运营到运营数据营业,形成媒介数据生产运用的新的闭环体系。
值得注意的是,对于全媒介中台的建造,首先必要媒介机构有一定的数据基础和营业规模,只有当自身数据多样、营业规模不断扩大、营业相互独立,急需通过全媒介中台解决效率、成本和质量的问题。
并且,媒介数据不能局限于现在的媒资数据,而应该是基于媒介连接威力、地缘优势、办事定位特色等形成的各类数据。媒介的数据库建造不能停留在简单的媒资库时代。盘活媒介数据使用必要新思维,要以加快数字经济时代媒介融合创新发展为战略目标,以“数据财产增值”为考量,以市场需求为导向,围绕不同的用户需求和市场需求,打造实用有效的媒介数据产品和数据办事。
注:文章部分观点引自《智慧媒介,数据先行——南方报业“中央数据库”建造的实践与探索》、《人民数据、新华数据、财新数据、南方数据 ——“媒介数据”新概念与前瞻剖析》等文章。