恺望数据发布自动化数据产线,称「95%以上自动驾驶数据仍需人工标注」

GhatGPT的爆火带给了全世界一个热点问题:「人工智能真的能替代人力吗?」在目前仍依靠规模人力方式的数据标注领域,自动驾驶数据服务公司恺望数据给出了一个双面答案——「能,但还不完全能替代。」2月17日,一场聚集了自动驾驶圈内技术专家、汽车自动驾驶及智能网联领域投资人参加的闭门交流会在北京举行。会上恺望数据透露,基于「自动化产线 规模化人力」为核心的「恺望自动化数据产线」已经启用。据透露,该自动化数据产线以数字驱动方式打造自动驾驶数据生产的全流程系统,并充分考虑「人机交互」的适配场景,通过SaaS平台、算法、各板块

GhatGPT的爆火带给了全世界一个热点问题:「人工智能真的能替代人力吗?」在目前仍依靠规模人力方式的数据标注领域,自动驾驶数据服务公司恺望数据给出了一个双面答案——「能,但还不完全能替代。」

2月17日,一场聚集了自动驾驶圈内技术专家、汽车自动驾驶及智能网联领域投资人参加的闭门交流会在北京举行。会上恺望数据透露,基于「自动化产线+规模化人力」为核心的「恺望自动化数据产线」已经启用。

据透露,该自动化数据产线以数字驱动方式打造自动驾驶数据生产的全流程系统,并充分考虑「人机交互」的适配场景,通过SaaS平台、算法、各板块建模等科技工具,以及校企合作培训逾千位「恺望人工智能训练师」,持续提升数据生产及运营管理全流程各板块的规模与效率。

目前,恺望已实现可在持续提升数据生产规模化的同时减少成本超过20%。

恺望数据发布自动化数据产线,称「95%以上自动驾驶数据仍需人工标注」

「还未到抛弃人力的时候」

OpenAI用7年时间孕育了ChatGPT,在此之前,经历了规模极大、基于人的数据,不断的建模与优化。虽然人工智能是热门焦点,也是大势所趋,但从目前的实际的产业应用来看,在自动驾驶数据生产领域,多个环节都仍依赖「人为判断及行为」主导。

在活动现场的QA环节上,恺望数据CEO于旭和产品VP张鹏提出了自己的观点。例如部分企业对于「自动标注」的宣传上,张鹏表示「不能细看,一细看可能会发现实际上还是人在干。」

他表示,在自动驾驶领域,能够自建大型智算中心的企业,毕竟很少数的一部分。目前95%以上的数据都还是需要人工标注,只是这些数据有可能是已经预先用算法过滤了一遍,之后再去由人工调校。

不过在这种背景下,恺望还是认为会坚定不移地往自动化的数据生产方向去走:「算法模型是肯定是做的,这毕竟是大方向。」张鹏认为,之所以要提数据自动生产线,是因为这才是符合当下在中国解决自动驾驶数据规模和质量成本之间平衡的解决方案。

恺望数据发布自动化数据产线,称「95%以上自动驾驶数据仍需人工标注」

于旭表示,在单一企业的特定任务中,在训练到一定程度时,可以做到很高的例如80%的预标注程度。但是,当再到新的阶段时,就又要重新开始,并不是一个稳定的水平。

「例如,传感器的种类是多样化的,而且一旦发生了安装位置的变化,可能又会影响数据识别,这是一种数据的长尾问题。」于旭认为,预标注更应该在还未被训练好的模型上发挥作用,如果能抽离出更通用化的预标注的模型,显然会具备更高的价值。

目前行业内的技术方案,多数是关注解决「预标注」这个环节的效率,而恺望认为,现阶段要持续实现稳定的低价数据供应,关键是在通过「自动化技术+人力运营管理」的部署,来提升全生产及管理流程的全局效率,进一步提供规模化的稳定低价数据供应。

自动驾驶标注稳定低价供给痛点

「自动驾驶公司现在的融资形势已经没有以前那么好了,这意味着海量数据的处理规模,需要在强预算限制下面去解决。」于旭说道。

恺望数据发布自动化数据产线,称「95%以上自动驾驶数据仍需人工标注」

在活动现场的业内交流环境上,也有几位用户方嘉宾提出,数据标注自动驾驶数据标注是价格敏感型导向的,数据需求变大了,可成本怎么降下来?

就此,恺望以「自动化产线+规模化人力」为核心,在不完全抛弃人力的模式下,引入人工智能技术提升数据生产规模化和自动化能力,并充分利用现阶段行业内「人的行为经验」进行AI建模,为最终实现生产线全自动化持续进行数据积累、建立规则、建模优化。

「数据生产流程包括对需求规则的解读、数据任务拆分、人员匹配,也包括在生产管理过程进行产能监管、质量监管、效率监管,有些部分可以实现全自动化,但有些部分、尤其是需要人为判断的部分,还有待更多成熟的模型建成,才能逐步实现自动化。」于旭介绍道。

在技术方面,恺望自动化数据产线由基于BI系统和AI算法建成的恺望SaaS平台支撑,由各自动驾驶数据生产的多个环节形成各自的系统接入组成,这些系统通过算法建模,既独立运作、又相互协同,未来通过各板块的持续建模优化、将进一步推进恺望自动化数据产线「全自动化」。

规模化培养人工智能训练师

学校学生规模大、成本较低,且不容易受供需影响,但百人百面,如何实现高效能配置?

恺望透露称,其正在搭建「恺望数据学院」,通过与多家高职院校合作的「恺望人工智能培训师计划」, 对学生进行行业通用的数据生产技能培训及恺望独有的自动化生产体系培训,这将帮助恺望获得大规模的标准化人力。

恺望数据发布自动化数据产线,称「95%以上自动驾驶数据仍需人工标注」

据了解,该计划预计在今年培训超过1000位学生,第一批300人培训目前已在山东等地高职院校完成。按照恺望的计划,将借鉴Uber的运营管理模式,结合开拓和管理各地的校园渠道、快速拓展培训师的规模及进行培训。

在总结数据生产行业时,于旭表示,这一行业目前有点类似「期货」的感觉,有七八百个玩家,也并不稳定,很多人就是在「赌」或者是「炒期货」。

「然后当数据有大规模爆发的时候,行业在后期会逐渐聚焦到几个巨头上,就类似网约车行业,这是绝对有可能性的。」于旭说道。

相关资讯

百分点大数据技术团队:数据治理“PAI”实施方法论

编者按数据作为第五大生产要素,已逐渐成为政府和企业决策的重要手段与依据。面对数据多样化、数据需求个性化、数据应用智能化的需求,以及在2B和2G行业中数据质量参差不齐、数据应用难以发挥价值、数据资产难以沉淀等问题,如何做好数据治理工作、提升数据治理能力成为了政府和企业数字化转型的重中之重。百分点大数据技术团队基于多年的数据治理项目经验,总结了一套做好数据治理工作及提升数据治理能力的实施方法论。近年来,推动数据治理体系建设一直是业界探索的热点,另外,《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》将数

百分点认知智能实验室:基于不完全标注样本集的信息抽取实践

编者按信息抽取是从文本数据中抽取特定信息的一种技术,命名实体识别(Named Entity Recognition, NER)是信息抽取的基础任务之一,其目标是抽取文本中具有基本语义的实体单元,在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等系统中都有广泛应用。基于监督学习的NER系统通常需要大规模的细粒度、高精度标注数据集,一旦数据标注质量下降,模型的表现也会急剧下降。利用不完全标注的数据进行NER系统的建立,越来越受到专家学者们的关注。第九届国际自然语言处理与中文计算会议(NLPCC 2020)针对此业

技术博客丨原来模型训练可以不用标注?一文全解四大机器学习方法

本文将用通俗的方式,为大家介绍耳熟能详却分辨不清的四个机器学习核心概念:监督式学习、半监督学习、非监督学习和自监督学习,并将用实例简介它们试图解决的问题。