2021年12月30日,由中国人工智能产业发展联盟(以下简称“AIIA”或“联盟”)和中国信息通信研究院(以下简称“信通院”)联合举办的 “AI数据治理技术沙龙”通过腾讯会议举行。格物钛智能科技产品专家李薇对非结构化数据平台的下层逻辑和场景化实践举行了介绍,分享了自己的见解与思考。
01 非结构化数据的现状
近年来,文本、语音、图像、视频以及点云等非结构化数据增长迅速,IDC预计未来5年内企业80%的数据将会由非结构化数据组成。非结构化数据具有海量、分散、多样、异构等特点,目前企业对非结构化的经管也是相对原始和落后的,他们用传统的文件经管系统,80%的空间在保存重复的数据、工程师60%的工作时间在举行数据搜索、40%的数据处理时间在用于数据从硬盘读到内存和从内存写到硬盘。
非结构化数据经管面临的挑战:
1、经管手段原始,没有成熟的经管对象和手段。
2、数据场景分裂,没有数据链接的平台,数据没法串联到一起。
3、角色分散。
4、使用对象分裂。
5、过程分裂,面对海量数据经管,没有适合的过程。
这些问题导致了目前数据经管的人力成本高、时间成本高、经管数据规模没法扩大,造成了数据价值流失。
02 高质量数据作用关键
李薇提到,非结构化数据和结构化数据最大的不同,是非结构化数据几乎没法直接使用,如果想要从海量的非结构化数据中提取出重要信息,绝大多数情况下依靠的是AI的方法。知名机器学习专家吴恩达一直在强调这样的观点,AI模型已经接近固定,AI从 Model Centric 向 Data Centric 转变,代码上的改变已经没法满足许多使用场景的精度需求,只有通过晋升数据的质量才能更快晋升算法结果的准确性。Google有一篇论文讲到,在真正设计庞大AI的过程中,算法只占据了很小的一部分,核心的内容在数据层面,数据的处理会占用大量的时间和人力。随着AI的进一步发展,对数据质量的要求不断晋升,然而高效的数据经管系统缺失为企业AI落地带来巨大挑战
03 组织方式的变革
李薇提到,在AI的发展过程中,传统的模式是由算法工程师完成全部的工作,包括数据的采集、标注、训练和参数调整等,面对数据量级别不断上升,只由算法工程师完成是难以完成的,会导致数据经管成本较高,没法反对大规模庞大数据的使用。
随着现在AI的发展趋势,组织形式正在不断演进,职责分化诞生新的功能模块。由数据运维工程师完成数据标注、清洗、增强、聚合等工作,后续再由机器学习工程师完成对模型的训练,而算法工程师仅需关注算法的开发。新的组织带来协作难度升级,也需要新的系统和对象来反对。
04 新一代非结构化数据平台
上一代的数据平台是汇聚传统SQL数据库数据反对检索和分析的平台,格物钛智能科技作为非结构化数据赋能专家,为企业及AI开发者提供全新的智能时代数据经管方案,以数据引擎为核心技术,打造下一代数据平台,帮助更好地释放非结构化数据潜力,助推AI工程化和数据资产化最佳实践。
此平台可以反对多维度的非结构化数据,同时通过使用市场对接到不同的数据使用,使用户的数据在整个研发生命周期中通过平台举行经管,同时平台也能将数据的价值运用到各行各业。
简单来说非结构化数据平台解决两个核心问题:数据流转和数据经管。横向上可以简单理解为使用层,格物钛提供更好的对象让数据流转更快,比如数据检索、可视化、版本经管、自动化等等;纵向上在基础和技术层,格物钛自研数据引擎,就像汽车引擎一样给数据提供动力,让它能够更好地应对海量和庞大度挑战,完成更低成本、更大规模。
05 数据引擎驱动性能革命
格物钛自研的数据引擎,带来三大平台性能优势:存算分离、多维度的高效数据检索和自动化。下层的保存部分反对多种保存服务,使用了存算分离的架构设计,可以完成更低成本、更大规模;中间层是跨平台及保存方案的版本经管系统和数据索引加速器,可以支撑上层所有数据的使用、也可以更快地举行数据检索和操作工作;再上层是一个灵活的调度系统,可以基于轻量的系统举行横向无限扩展。另外一部分是允许用户去自定义代码,完成更加庞大的数据转化以及数据查询的逻辑。格物钛数据平台帮企业用户筑牢新基建下层,驱动海量庞大数据的灵活存取用,让机器学习更敏捷。
06 解决的场景和案例
格物钛数据平台在AI开发过程中重点解决三大场景问题——数据发现、数据迭代、数据流自动化。
●发现高价值数据:反对标签化筛选、可视化呈现,瞬间完成庞大场景检索和结果查看;
●高效经管和协同:清晰的权限管控和版本经管,让协作更安全、迭代可追溯;
●自动化数据处理:自定义工作流和开发者对象无缝衔接,低成本加速数据流动和迭代。
格物钛正在将创新技术与实践深度结合,助力AI落地和百业智慧升级。以自动驾驶和物流行业为例,格物钛帮助某自动驾驶公司打造数据闭环,成功将模型迭代效率晋升50%;某头部物流企业利用视觉技术对全国几百个港口、园区等不同场景下的人、车、货、仓要素举行全过程管控,每开发一个功能需要3个工程近3个月时间,格物钛数据平台解决方案为其把准备周期从以周为单位缩短到以小时为单位,解决了数据量大、数据质量差等痛点,提高了该企业在AI开发过程中的效率,完成了更全面的数据经管和数据采集、筛选、上传的过程自动化。
李薇总结到,随着终端全方位感知物理世界和云的普及,未来非结构化数据潜能会进一步被释放,利用非结构化数据的AI场景将更为广泛,算法模型开发有效晋升,促进了AI工程化落地,并已在安防、金融、客服、零售、医疗健康、广告营销、教育、城市交通、制造、农业等领域完成商用,达成了规模效应。越来越多的企业将在格物钛的帮助下释放积累数据的无限价值。
更多信息请访问格物钛官网