数据无处不在,而且只会越来越多。在过去的 5-10 年内,数据迷信已经吸引了越来越多的新人投身于此。
但如今数据迷信的应聘状况如何?亚马逊 Alxea 团队的呆板进修迷信家 Mihail Eric 收集了多家公司的应聘信息后,在个人博客中撰写了一篇阐明文章,阐述自己的思考。
数据胜于雄辩,他对自 2012 年以来 Y-Combinator 孵化的每家公司发布的数据范围地位从事了阐明,研讨问题包括:
在数据范围,公司最常应聘的地位是什么?
人们常讨论的数据迷信家的需求究竟有多大?
公司看重的这些技术是引发当今数据革命的技术吗?
如下是博客文章的主要内容:
方法
我选择对 YC 风投公司从事阐明,这些公司声称将某种数据作为其价值主张的一部分。
主要关注 YC 是因为其提供了易于搜索(可抓取)的公司目录。此外,作为一个特别有远见的孵化器,它已经为全球众多范围的公司提供投资长达十年之久,我觉得他们为本次阐明研讨提供了一个具有代表性的市场样本。但请注意,我没有阐明超大型科技公司。
我抓取了自 2012 年以来每家 YC 公司的首页网址,建立起一个包含 1400 家公司的初始池。
为什么是从 2012 年开始呢?2012 年,AlexNet 在 ImageNet 竞赛中获奖,掀起了如今呆板进修和数据建模的热潮,最早的一批数据优先(data-first)公司由此诞生。
我对初始池执行了关键词过滤,以减少需求浏览的公司量。具体而言,我只考虑了其网站至少包含如下术语之一的公司:AI、CV、NLP、自然语言处理、计算机视觉、人工智能、呆板、ML、数据。同时不考虑那些网站链接故障的公司。
这样的操作应该会产生大量错误的结果,我意识到将对各个网站从事更细粒度的手动检查以了解相关脚色,因此我尽可能地优先考虑高召回率。
在这个筛选过的资源池中,我遍历了每个网站,找到了他们发布应聘信息的位置,并记下了标题中包含数据、呆板进修、NLP 或 CV 的所有地位。这让我建立了一个来自约莫 70 个不同公司的应聘地位的资源池。
也有点小失误:其中我错过了一些公司,有些网站虽然应聘信息很少,但是其实正在应聘。此外,有些公司没有正式的应聘页面,但而是要求应聘者直接通过电子邮件与他们联系。我忽略了这两种类型的公司,它们不在本次阐明研讨中。
另一件事是,这项研讨的大部分都是在 2020 年的最后几个星期内完成的。随着公司定期更新应聘页面,封闭的地位可能已经改变,但我认为这对得出的结论影响不大。
数据从业者应该控制什么?
在深入研讨结果之前,值得花一些时间来搞清楚每种数据范围地位平日控制什么。我将花时间介绍如下四个地位:
数据迷信家控制在统计和呆板进修中使用各种技术来处理和阐明数据,平日控制建立模型以探究从某些数据源中能够学到的内容,但模型平日是原型级别而非生产级别;
数据工程师控制开发一套强大且可扩展的数据处理工具 / 平台,必须熟悉 SQL / NoSQL 数据库的整理和建立 / 维护 ETL 流水线;
呆板进修(ML)工程师平日既控制训练模型,又控制生产模型,他们需求熟悉一些高级 ML 框架,还必须能够轻松建立模型的可扩展训练,推理和部署流水线;
呆板进修(ML)迷信家致力于前沿研讨,他们平日控制探索可以在学术会议上发表的新想法。在移交给 ML 工程师从事生产之前,呆板进修迷信家平日只需求对新的 SOTA 模型从事原型制作。
值得一提的是,与传统数据迷信家相比,封闭数据工程师的地位增加了不少,在这种情况下,在公司雇用的原始量上,数据工程师比数据迷信家多了约莫 55%,而呆板进修工程师的数量与数据迷信家的数量大致相同。但如果查看各个地位的名称,就会发现似乎有些重复。
我只通过合并地位来提供粗略的分类即在不同地位脚色控制的内容大致相同的情况下将其合并为一个名称。其中包括如下等价关系集:
NLP 工程师≈CV 工程师≈ML 工程师≈深度进修工程师(尽管范围可能不同,但职责大致相同)
ML 迷信家≈深度进修≈ML 实习生
数据工程师≈数据架构师≈数据主管≈数据平台工程师
按百分比描述的话是:
总体而言,合并会使差异更加明显。封闭数据工程师比数据迷信家多约莫 70%。此外,封闭 ML 工程师比数据迷信家多约莫 40%。呆板进修迷信家的数量也只有数据迷信家的约莫 30%。
结论
与其他数据驱动型地位相比,数据工程师的需求越来越高。从某种意义上说,这代表了该方向正朝着更广阔的范围发展。
5 到 8 年前,呆板进修变得炙手可热,各个公司需求的是能够对数据从事分类的人才。但是之后 Tensorflow 和 PyTorch 等框架发展得很好,使得着手开始从事深度进修和呆板进修的能力大众化,随之而来的是数据建模技术商品化。如今,发展瓶颈在于帮助公司获得有关生产级别数据问题的呆板进修和建模的意见。比如要考虑如下问题:
如何注释数据?
如何处理和清理数据?
如何将其从 A 移到 B?
如何尽快完成这些任务?
所有的这些都意味着,地位要求具有良好的工程技术,偏向于数据的传统软件工程可能是我们目前真正需求的。但是否意味着您不应该进修数据迷信?并不是。而是意味着竞争将更加艰难。对于正准备训练成为数据迷信人才的初学者来说,可用的地位将会越来越少。当然,有效地阐明数据并从数据中提取可行见解的人一直需求,但这些见解必须是优秀的。
很明显,公司经常需求混合型数据从业者,即可以建立和部署模型的人。或者更简洁地说,可以使用 Tensorflow,但也可以从源代码建立它的人。
本研讨的另一个发现是 ML 研讨地位非常少。呆板进修研讨倾向于获得相当大的资源支持,因为这是顶尖级的研讨,例如 AlphaGo 和 GPT-3。但是对于许多公司,尤其是早期公司而言,顶尖的 SOTA 技术可能不再是必需的。达到最佳模型性能的 90%,同时扩展到 1000 个以上的用户,平日对他们来说更有价值。
但你可能会在工业界的研讨实验室里找到很多这样的脚色,他们可以在很长一段时间里承受资本密集型赌注,而不是在种子轮就开始做产业 demo 准备接 A 轮融资。
如果没有其他问题,我认为最重要的是让新来者对数据字段的期望合理并经过校准。我们必须承认,数据迷信现在已经今非昔比,只有当我们知道自己身处何处时,我们才知道要去到哪里。