英伟达梦想,富士康模式:Alexander Wang如何用24万数字游民打造数据标注王国

这位世界上最年轻的白手起家的亿万富翁,曾在首次登上福布斯排行榜后迅速跌落,但几年后就重新夺回了这一头衔。 给 Alexander Wang 带来这个极具传奇性的名号的,是他的数据工厂—— Scale AI。 最近,Scale AI 实现了将近 10 亿美元的年化收入,同比增长了足足 4 倍。

这位世界上最年轻的白手起家的亿万富翁,曾在首次登上福布斯排行榜后迅速跌落,但几年后就重新夺回了这一头衔。给 Alexander Wang 带来这个极具传奇性的名号的,是他的数据工厂—— Scale AI。

最近,Scale AI 实现了将近 10 亿美元的年化收入,同比增长了足足 4 倍。

这条消息一出引发众多关注,Scale AI 到底做了什么才能赚到这么多钱?要知道,去年年底 OpenAI 的年化收入也仅有 16 亿美元,今年才有望超越 35亿美元。

Scale AI 做的事情很简单,给人工智能模型提供数据标注服务,没有什么黑科技但真的很赚钱。

毕竟人工智能模型的三驾马车算力、数据和算法,只要吃透一块就能赚得盆满钵满,更别说数据领域在此之前可以算得上是一片空白。

被问及他是如何建立起 Scale AI 这个人工智能模型的“数据工厂”时,Alexander Wang 曾很凡尔赛地表示只是某个“夏天随便玩玩的事”。

早在九年级的时候,Alexander Wang 就对创业充满热情,常和朋友一起制定自己的创业计划。

高中时期,他已经积累了好几份创业中期企业的工作经历,因此到了大学,同龄人努力争取的大厂实习已经无法满足他自我提升的需求了。

在麻省理工学院学习的一年里,Alexander Wang 沉迷于深度学习和神经网络,同时修读了五门研究生难度的计算机课程,并且拿到了满分 5.0 的绩点。

但 Alexander Wang 厌倦了学术,他更想成为这个领域的实践者。看到科技公司砸下成百上千亿美元训练模型时,Alexander Wang 意识到机会近在咫尺,果断从麻省理工学院退学,和之前在 Quara 结识的 Lucy Guo 共同创立了 Scale AI。

在当时的人看来,Scale 要做的事情似乎与行业潮流背道而驰,人人都在尝试用人工智能代替人力,而 Scale 却要用大量人力去做人工智能做不了的事情。

但这正是 Scale AI 的优势所在,人工智能公司为模型训练收集了海量的原始数据,但在这些数据输入人工智能模型之前,需要用标签对其进行注释,大多数公司只能手动完成这项艰巨的任务。Scale AI 给了他们提供了新的选择。

“我们帮助客户解锁这些数据,”Alexander Wang 说,“这让他们脱离了起跑线。”

Alexander Wang 抓住了自动驾驶兴起的机会,帮助自动驾驶汽车用雷达和传感器生成的三维图像进行数据标注,标注后的高质量数据能够让另一端获得更好的性能。

短短几年,Scale AI 就扩张到了令人咋舌的地步。

目前,Scale AI 已经累计收获了 135 亿美元的投资,估值达到 138 亿美元。Alexander Wang 也依靠 Scale AI 两次拿下福布斯排行榜上“最年轻的白手起家的亿万富翁”的称号,但他的成功也伴随着争议。

依靠大量的海外廉价劳动力,Scale AI 才能吃下数据庞大的标注项目,也因此被指责是在剥削和压榨。联合创始人 Lucy Guo 的出走更是加剧了外界对 Alexander Wang 行事风格的批评。

从天才少年到创业先锋

Alexander Wang 的成长故事可以说是一出典型的“天才少年”剧本。

他出生在新墨西哥州的一个中国移民家庭,父母都是洛斯阿拉莫斯国家实验室的物理学家。Alexander Wang 回忆道,还在上幼儿园时,他的父母就开始给他讲解高级物理。

在父母的影响下,Alexander Wang 从小就对数学和计算机编程充满热情。

十几岁时,Alexander Wang 已经是各大数学和物理比赛的常客。2013 年,他成功入围了数学奥林匹克项目,并且 2012 年和 2013 年连续两年入围 USACO(美国计算机奥林匹克竞赛)决赛。洛斯阿拉莫斯的家中摆满了他和哥哥们的竞赛奖杯。

凭借比赛中出色的表现,Alexander Wang 高中还未毕业就收到了大量来自硅谷顶尖科技公司的抛出的橄榄枝。

17 岁时,Alexander Wang 离开了高中,前往硅谷工作,后来成为了问答网站 Quora 的一名工程师。在 Quora 的这一年里,他每天投入 12 个小时扑在工作上,并把这份热情延续到现在。

旧金山开设过一个名为 SPARC(应用理性与认知暑期课程)的夏令营,旨在将有才华的数学和科学学生聚集在一起。就是在那里,Alexander Wang 注意到了 AI 的开创性潜力,并结识了 OpenAI 联合创始人 Greg Brockman 和 Anthropic 的首席执行官 Dario Amodei,在他们的鼓励下主动了解了更多与 AI 有关的技术知识。

2015 年,Alexander Wang 去了麻省理工学院学习数学和计算机科学。大一时,他同时兼顾了五门研究生计算机科学课程,还开发了一款名为 Ava 的应用程序,用于帮助用户预约医生。

正是在这个阶段,他和在线炒房游戏 Opendoor 的首席执行官 Eric Wu 有过几次深入对话。Eric Wu 鼓励他趁着年轻时冒险,告诉他应该尝试从初创公司开始,而不是在成熟的科技公司工作。

“我知道如果我没有在最佳时机冒险成为一名企业家,我会后悔的,”Alexander Wang 在博客里写道,“如果现在不愿意迈出这一步,那什么时候会愿意呢?”

Alexander Wang 意识到,机器学习和人工智能术已经进入早期应用,未来必然会掀起一场技术革命。他也敏锐地捕捉到一个市场痛点:人人都需要海量的数据,但人人都不愿意花费太多精力在繁琐的数据处理上。

年仅 19 岁的他在麻省理工学院就读一年后选择了退学,和 Lucy Guo 共同创立了 Scale AI,瞄准了 AI 众多赛道中还未发掘的一片蓝海——数据标注。

卖铲人、炼油厂和镐子

AI 领域有三个公认的基石:数据、算法和算力。

如果说英伟达是算力的卖铲人,那么像 Scale AI 这样的数据标注公司就是数据的卖铲人。大模型的研发依赖于英伟达提供的算力,人工智能的模型进步则离不开精心标注的高质量数据。有了这份需求,提供专业的数据标注服务的公司也应运而生。

成立之初,Alexander Wang 并不确定 Scale AI 要提供哪一类数据,并做了各种各样的尝试,积累一些了失败的经验。不过,他很清楚一件事:如何处理数据,才是 Scale AI 业务的关键。

过去还有一个说法特别流行,“数据是新的石油。”

但 Alexander Wang 对此有不同看法。他认为石油是一种稀缺的商品,而数据并不是这样。数据的种类和内容要比石油丰富的多,而数据与数据之间也不是平等的,真正有价值的是在深思熟虑后,被拼接在一起的有用的、不同质量的数据。

这种洞见,成了 Scale AI 的核心理念。

在人工智能的研究中,算法和代码几乎可以说是通用的。比如利用一个程序来检测面部表情,在检测不同表情的过程中,算法和运行的代码都是一样的,只有数据发生了改变。

以 Scale AI 早期的自动驾驶合作为例,算法需要通过大量的案例进行学习,去识别停车点、行人位置、如何避让自行车等。然而,只有对汽车收集到的大量原始数据进行标记,算法才能从数据中学习到“谁是行人,谁是自行车”。

这个“数据精炼”的过程,是让人工智能从“看不懂”到“会判断”的关键一步。

Alexander Wang 说,如果数据是一种新的石油,那 Scale AI 就是一座炼油厂。Scale AI 通过把原始数据转换成高质量的标注数据,来帮助人工智能公司提升他们的算法。

即使每个人工智能公司都需要数据标注工作,但他们并不一定要自己设立一个专门的团队来处理这些繁琐的任务。就像整个行业都把 GPU 和算力外包给了英伟达一样,很多大公司资金雄厚、人才济济,但与其自己从头研发芯片,不如直接使用英伟达的产品省时省力,成本还更低。

也因此,Scale AI 的业务和人工智能行业紧紧绑在了一起。

Alexander Wwang 说:“我们是生成式人工智能‘淘金热’中的镐和铲子。”当大家都在试图“挖金子”的时候,Scale AI 另辟蹊径,在这场“金矿争夺战”中占据了独特的优势。

Scale AI 的快速崛起

早在创立之前,Scale AI 就已经收获了资本市场的青睐。

Alexander Wang 曾带着自己开发的 Ava 参加了由著名风险投资公司 Y Combinator 运营的一项初创企业培训计划,也因此结识了当时这项计划的领导人, OpenAI 的创始人 Sam Altman。

Accel 投资者 Dan Levine 也对 Alexander Wang 的经历很感兴趣,抢在 Y Combinator 之前成为了 Alexander Wang 的合伙人,提供了 450 万美元的种子资金,还把自己的公寓当作工作室。

2016 年,Alexander Wang  和另一位联合创始人 Lucy Guo 决定成立 Scale AI,这个只有三人的工作室拿到了 Y Combinator 12 万美元的天使轮投资,时任 Y Combinator 总裁的 Sam Altman 也因此间接持有了 Scale AI 的股份。

随后,Scale AI 以每年一轮融资的速度迅速扩展。2017 年的 50 万美元,2018 年的 800 万美元,再到 1 亿、1.5 亿美元,Scale AI 的融资金额飞速增长。到 2020 年,公司估值翻了三番,达到了惊人的 35 亿美元。

2021 年,Scale AI 开启了 E 轮融资,总计融资 3.25 亿美元,估值再翻一倍上升至 70 亿美元。

今年 5 月,Scale AI 最新一轮的 F 轮投资由 Accel 领投,总计筹集了 10 亿美元,Scale AI 的估值也飙升至惊人的 138 亿美元。

Scale AI 惊人的扩展速度离不开 Alexander Wang 关于市场的敏锐嗅觉。

Index Ventures 的退休合伙人、Scale AI 董事会成员 Mike Volpi 评价道,“Alexander Wang拥有多种创业和远见卓识的技能,这些技能融合到一个人身上。”

Scale AI 最早的业务是给特斯拉、Cruise等公司提供训练自动驾驶汽车机器学习模型所需的标记数据。当自动驾驶热度逐渐消减时,Alexander Wang 很快就注意到了生成式人工智能的市场。

2019 年,他和 OpenAI 签署了 Scale AI 的第一份生成式人工智能订单,为 ChatGPT 早期语言模型标记数据。

2020 年,Alexander Wang 又和美国陆军签署了一份价值 3.5 亿美元的合同,Scale AI 的估值也随之升到了 73 亿美元。 Alexander Wang 持有的 Scale AI 15% 的股份成功把他送上了福布斯榜单,让年仅 25 岁的他拥有了“最年轻的白手起家的亿万富翁”的名号。

在疫情最严重的时期,Scale AI 还成功拿下了 Meta 一份价值约 4000 万美元的合同,为 Facebook 和 Instagram 上的新购物功能标记数据。然而几个月后,Meta 取消了这笔交易。

2023 年 1 月,科技行业陷入低迷,Alexander Wang 做出了艰难的决定,裁员 20%。公司估值也在过去一年中暴跌,他的名字从亿万富翁榜单上消失。

福布斯称,这是一个短暂的任期,“随着私营科技公司的估值在接下来的一年里暴跌,他迅速从亿万富翁的行列中跌落”。

但 ChatGPT 的火爆带动了大量资金转投生成式人工智能,Scale AI 也凭借这股风潮触底反弹。

去年,Scale AI 和谷歌签订了一份价值 1.2 亿美元的合同,帮助谷歌开发 Gemini 语言模型,Scale AI 的年收入也从 2.27 亿美元飙升至 6.8 亿美元。

今年创纪录的 10 亿融资之后,Alexander Wang 以 20 亿美元的身价重登福布斯亿万富翁榜单。

Scale AI 的神话引来了不少模仿者,这些竞争对手都在竞相窃取 Scale AI 的业务,并按照 Scale AI 的模式给合作方提供相同的方案。与此同时,像 OpenAI 这样的大客户也在招募自己的数据标记员,以减少他们对数据标注公司的依赖。

Scale AI 的长期投资者、Thrive Capital 的合伙人 Vince Hankes 对此并不在意,“如果他们想成为一家市值 500 亿美元的公司,他们就必须找到另一种方式,为他们的故事书写新的篇章。

成为数据行业的“富士康”

AI界有一个著名的梗:“有多少人工就有多少智能。”这句话,用来形容 Scale AI 上再合适不过。

Scale AI 通过子公司 Remotasks 雇佣了全球 240,000 名外包工人,并专门在非洲和东南亚建立了数十个培训中心,专门培训可用的数据标注员。

凭借庞大的外包队伍,Scale AI 成为了数据行业的“富士康”,在数据标注领域占据了主导地位。

这种依赖外包的策略也给 Alexander Wang 带来了不少争议,被指责是在剥削国外的廉价劳动力。海外劳工与美国本土数据标注员的薪资可能相差数倍甚至十倍以上,这种巨大的薪酬差距让 Scale AI 拥有了竞争对手难以匹敌的利润空间。

不过,这种指责让人感觉是来自无能竞争者的嫉妒。竞争对手 Hive 曾效仿 Scale AI 推出 Remotasks 的竞品,但后来由于利润率过低而关闭。

富士康能成为制造业中的巨无霸,除了成本控制,其在制造领域的Knowhow、垂直整合能力都是关键。同样,Scale AI 的成功绝不止是依靠海量廉价劳动力那么简单,Alexander Wang 对行业趋势的敏锐洞察才是制胜法宝。

最初,他抓住自动驾驶热潮,迅速在这一领域称霸。然而,随着人力需求的激增,外包成本也迅速上涨,毛利率一度从 65% 降至 30%。为解决这一问题,Scale AI 果断建立了自己的外包机构,到第二年,公司利润率回升至 69%。

当自动驾驶市场开始下滑时,Alexander Wang 又迅速转战生成式人工智能,并将客户群扩展至机器人、计算机视觉和电子商务等新兴领域。

凭借这种出色的商业嗅觉,Scale AI 每次都能早早进入新兴市场,牢牢占据高份额。

一位旗舰客户直言,Scale AI 提供的全方位服务让他们只需与一家公司合作,减少了与 15 家供应商打交道的麻烦,而这种横跨所有功能的服务正是竞争对手无法比拟的。

Scale AI 这种不断‘重塑’自己的能力,正是 Scale AI 能在激烈竞争中脱颖而出的关键,也与Alexander Wang的经历有关。

Scale AI 最初的名字是Scale API,致力于为训练数据创建简单的 API,主要做一些内容审核、资料获取分类的简单重复性任务。随着业务重心逐渐转移到人工智能数据标注,2018 年公司正式更名为 Scale AI。

Alexander Wang 选择数据这个大方向绝非偶然。

还在麻省理工读书时,Alexander Wang 就发现学校里有大量的可用资源,但没有标准化的工具和基础设施。他敏锐地察觉到算法、算力和数据三大版块中,算法和算力已经被科技巨头们牢牢盯上,唯有“数据”这一领域还鲜有人问津——这正是他决定踏入的机会之门。

事实证明,Alexander Wang 赌对了。

源源不断的资金和资源被投入到人工智能行业,最初的 Scale API 也让他积累了庞大的数据资源和行业知识,再加上前期创业时加入YCombinator得到奥特曼的加持,Alexander Wang凭借自身强大的执行力,集齐了天时地利人和,带领 Scale AI 扶摇直上,迅速成为了这一领域的独角兽。

即使是在看似没有技术含量的数据标注领域,Alexander Wang 依然设法打造了属于 Scale AI 的技术壁垒。

Alexander Wang 从亚马逊的模式中汲取灵感,把数据标注工作也打造成自动化的“流水线”。

依靠前期的“人海战术”,Scale AI 积累了丰富的人力资源和数据资源,开始训练自己的人工智能工具来提升效率。充足的海外劳工数量一边给 Scale AI 提供了海量的训练数据,一边又能在反复使用人工智能工具的过程中帮助其进一步优化。

“人类 + 机器”的黄金组合让 Scale AI 的效率突飞猛进,但 Scale AI 并未止步于此,转头迎接了下一个挑战,将服务范围扩展到人工智能开发的整个生命周期,服务质量依旧碾压竞争对手。

Scale AI 曾声明,自己的数据标记和注释服务比其他替代方案更快、更便宜、更准确。并且它使用了先进的质量保证流程和反馈循环来确保其数据的一致性和可靠性。

一位客户在对比后放弃了原本的服务商,选择了 Scale AI 的服务。“我们更换服务商主要是因为两件事。其一是贴标的质量。其次是吞吐量......我们还看了其他解决方案的定价。Scale AI 在这个市场上仍然具有相当的竞争力”。

除此之外,严格的保密协议也是 Scale AI 的一大优势,与军方合作签订国防合同,也给 Scale AI 变相打了一份广告,连军方都放心的数据标注公司,保密一定没问题。

转型与数据定制的未来

在一次访谈中,Alexander Wang 直言:“当前制约 AI 发展的瓶颈不是计算,而是数据。”

Scaling Law 也表明,随着如今模型规模的发展,对数据的需求正在随指数级增长,简直是个无底黑洞,但数据总有用完的那一天,互联网也不再是数据的“金矿”了。

现在高质量数据愈发稀缺。尤其是文本数据能够非常有效地压缩信息,而视频数据的压缩效率则要差得多。预训练模型所需的原始数据量需要不断扩展,才能弥补强化学习阶段的数据空白。

Scale AI 也因此不满足于只做个“数据苦力”,通过几次转型,从单纯的数据处理服务商,迈向了数据管理、分析以及模型搭建的综合服务商。

Scale AI 还关闭了部分海外承包商机构,降低质量参差不齐的海外劳工数量,积极招揽博士和技术人才,以应对更高层次的数据需求。

未来的数据处理不仅需要自动化工具,还需要大量的人类专家参与。他们不仅可以帮助生成大语言模型更自然、更贴近人类思维的对话,还能够更加智能地审核生成数据。

在 Alexander Wang 看来,专家们就像“活的 GPU”,他们的智慧和创造力将成为推动 AI 行业发展的重要引擎。这也契合了 Scale AI 的精英主义文化。员工们被要求专注于行业里的大问题,努力把自己的想法转化成现实,并把它作为自己应该肩负的责任。

在招聘方面,Alexander Wang 追求的是 MEI 原则:优势、卓越和智慧。他强调,Scale AI 只雇用“最合适的人”,卓越”在 Scale AI 是基本要求,而“聪明”则是首选。

投资者也对 Scale AI 有着超乎寻常的信心。董事会成员 William Hockey 说:“Alexander Wang 的成功并不是因为他是个少年天才,而是因为他有一种其他人都没有的绝对疯狂的职业道德。”

至于更远的未来,Alexander Wang 认为,当今顶尖的模型大多依赖互联网的公开数据进行训练,企业的机会在于如何把通用模型与自己的专有数据结合,进行精细微调,最终打造出符合自己业务和客户需求的“独门秘籍”。

为此,Scale AI 开发了一个名为 EGP 的平台,让企业能够在基础模型(如 GPT-3.5)上,用自己的专有数据进行微调,打造最适合自身需求的定制化 AI 模型。

Scale AI 未来的愿景是创建一个可以处理任何类型数据和任何类型任务的平台。

在 Alexander Wang 眼中,专有和差异化的数据源将成为未来人工智能企业新的护城河,而  Scale AI 则是帮助他们构建数据壁垒的最强后盾。

相关资讯

估值飙至 138 亿美元,27 岁天才少年再获融资:数据标注会是下一个风口?

【新智元导读】Alexandr Wang 创办的 Scale AI 是一个为 AI 模型提供训练数据的数据标注平台,近期完成新一轮 10 亿美元融资,估值飙升至 138 亿美元。该公司表示将利用新资金生产丰富的前沿数据,为通向 AGI 铺平道路。Scale AI 为想要训练机器学习模型的公司提供数据标注服务,已从亚马逊和 Meta 等众多知名机构和企业投资者那里筹集了 10 亿美元的 F 轮融资。本轮融资由 Accel 领投,它之前还领投了 Scale AI 的 A 轮融资,并参与了后续的风险投资。这轮融资让 Sc

Uber“零工经济”扩展至数据标注,已对 Niantic 等外部客户提供服务

Uber 本月在多国同独立承包商签约,通过承包商派发来自其 Scaled Solotions 服务的付费人工数据标注任务。

终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名

当前最火的大模型,竟然三分之二都存在过拟合问题?刚刚出炉的一项研究,让领域内的许多研究者有点意外。提高大型语言模型的推理能力是当前研究的最重要方向之一,而在这类任务中,近期发布的很多小模型看起来表现不错,比如微软 Phi-3、Mistral 8x22B 等等。但随后,研究者们指出当前大模型研究领域存在一个关键问题:很多研究未能正确地对现有 LLM 的能力进行基准测试。这是因为目前的大多数研究都采用 GSM8k、MATH、MBPP、HumanEval、SWEBench 等测试集作为基准。由于模型是基于从互联网抓取的大