【新智元导读】Alexandr Wang 兴办的 Scale AI 是一个为 AI 模型提供训练数据的数据标注平台,近期完成新一轮 10 亿美元融资,估值飙升至 138 亿美元。该公司表示将利用新资金生产丰富的前沿数据,为通向 AGI 铺平道路。
Scale AI 为想要训练呆板进修模型的公司提供数据标注服务,已从亚马逊和 Meta 等众多知名机构和企业投资者那里筹集了 10 亿美元的 F 轮融资。
本轮融资由 Accel 领投,它之前还领投了 Scale AI 的 A 轮融资,并参与了后续的风险投资。
这轮融资让 Scale AI 的身价飙升。尽管去年年初裁员 20%,但公司目前估值已经达到了 138 亿美元。
Scale AI 联合创始人兼首席执行官 Alexandr Wang
除了亚马逊和 Meta 之外,Scale AI 还吸引了各种各样的新投资者:思科、英特尔、AMD 等风险投资部门参与其中,而且很多注资过的公司也回归了,包括英伟达、Coatue、Y Combinator 等等。
天才少年辍学兴办独角兽
Scale AI 由 Alexandr Wang 和 Lucy Guo 于 2016 年创立,由著名创业孵化器 Y Combinator 投资。该公司使用呆板进修来标记和分类大量数据,以便客户用于训练模型。
Scale AI 的客户包括 Meta、微软、英伟达、OpenAI、丰田和哈佛医学院。
在创始人基金领投的 1 亿美元 C 轮融资之后,Scale AI 在 2019 年获得了独角兽的地位,总共从 Index Ventures、Coatue、Tiger Global 等知名投资者处筹集了 6.026 亿美元。
2022 年,持有 15% 股份的 Alexandr Wang 成为全球最年轻的白手起家的亿万富翁。
创业之前,Wang 从小到大的履历也让人印象深刻。
1997 年出生于新墨西哥州,父母都是在新墨西哥州洛斯阿拉莫斯国家实验室的物理学家。
高中阶段开始通过网络自学编程,并报名参加了一些世界级的编程大赛,比如美国计算机奥林匹克竞赛(USACO)。
17 岁,成为美国知名问答网站 Quora 的全职码农;
18 岁,考入麻省理工学院攻读呆板进修;
在 MIT 大一刚结束后的暑假,他就和 Guo 一起兴办了 Scale,并且拿到了 Y Combinator 的投资。
Wang 跟爸妈说,「这就是我夏天随便玩玩的事。」
Scale AI 刚起步时,有些人确实觉得这就是一个笑话,毕竟公司当时只有三名员工。
不过,在不断地融资和发展之下,Scale AI 发展飞速,到 2021 年已经成长为价值 73 亿美元的独角兽企业,2023 年初公司规模也扩展到了 700 人。
Wang 在接受《财富》杂志独家采访时透露,随着企业客户竞相训练生成式 AI 模型,Scale AI 的这方面业务快速增长。
2023 年,公司年度经常性收入(企业长期为数据服务支付的费用)增加了两倍,预计 2024 年底将达到 14 亿美元。
由于 Scale AI 的惊人成就,Alexandr Wang 在 2021 年入选福布斯企业技术畛域「30 under 30」排行榜,他本人在硅谷也被称为「下一个扎克伯格」。
AI 模型的「数据工厂」
AI 畛域公认的三个基本支柱 —— 数据、算法和算力。
算法畛域,前有谷歌、微软的大型研究院,后有推出过 Sora 和 GPT 系列模型的 OpenAI;算力畛域有供货全球的英伟达,但在 Scale AI 还未诞生的 2016 年,数据畛域仍处于空白。
19 岁的 Alexandr Wang 在看到这一点后,做出了辍学创业的决定,「我兴办 Scale 的原因是为了解决人工智能中的数据问题」。
大部分数据都是非结构化的,AI 很难直接进修这些数据;而且大型数据集的标注一项资源密集型工作,因此,「数据」被很多人认为是科技畛域最辛苦、最卑微的部分。
但 Scale AI 却在短时间内就获得了巨大成功。他们可以为不同行业的企业客户量身定制数据服务。
在自动驾驶畛域,Cruise 和 Waymo 等公司通过摄像头和传感器收集了大量数据,Scale AI 将呆板进修与「人机回路」(human-in-loop)监督相结合,管理和标注这些数据。
他们曾经开发的「自治数据引擎」推动了 L4 级别自动驾驶技术的发展。
2019 年,Scale AI 帮助 OpenAI 团队一同训练 GPT-2,进行了 RLHF 的首次实验,并将这些技术扩展到 InstructGPT 等其他 LLM 上。
CEO Wang 在接受《财富》杂志采访时表示,Scale AI 将自己定位为整个 AI 生态的基础设施供应商,建立「数据铸造厂」,而不仅仅是在子公司 Remotasks 中雇佣大量的合同工进行人工标注。
Scale AI 已经开始与不同畛域的大师合作,比如博士级学者、律师、会计师、作家等。
给聊天呆板人的回复进行打分,这样的工作为什么能让博士级别的大师参与其中?
Wang 的回应是,原因有很多:「如果你是一名博士,习惯于做一些非常小众、深奥的研究,也许世界上只有少数人能够理解。但这个工作中,你可以帮助矫正和建立这些人工智能系统的前沿数据,有机会产生真正的社会影响。」
同时,Wang 也认为,这些大师所能提供的高质量数据对 AI 的未来非常重要。
他补充说,来自大师的、包含复杂推理的数据是未来人工智能的必备条件。「你不能随便把旧数据输入给算法中,然后期待着它会自我矫正」。
传统的数据来源,比如从 Reddit 等社区的评论中抓取数据存在局限性。Scale AI 建立了一些流程,模型先输出一些内容,例如撰写研究论文,在此基础上,人类大师可以矫正这些内容,从而矫正模型的输出。
关于 AI 生成并诠释的数据,有人持积极态度,认为可以消除对人类诠释数据诠释,但 Wang 的观点并没有这么单纯。
他说,合成数据以及人类创建的数据,这两个方面 Scale AI 都有投入。「虽然人工智能生成的数据很重要,但想要获得有一定质量和准确性的数据,唯一方法是通过人类大师的验证。」
数据日益重要
数据是人工智能的命脉,因此数据管理和处理畛域的公司正站在风口上。
就在上周,印度的数据平台 Weka 表示,它以 16 亿美元的投后估值筹集了 1.4 亿美元,以帮助公司为其人工智能应用程序建立数据管道。
人工智能数据的主要问题仍然存在。Scaling Law 的存在意味着,随着模型变大,对数据的需求也呈现指数级增长,越来越多的人担心大模型会耗尽可用数据。
Alexandr Wang 在 Scale AI 的官网上这样写道,「数据丰富不是默认情况,而是一种选择,它需要汇集工程、运营和 AI 方面最优秀的人才」
Scale AI 的愿景之一是「数据丰富」,从而将前沿 LLM 扩展到更大数量级,「为通向 AGI 铺平道路。在达到 GPT-10 的过程中,我们不应该受到数据的限制」。
参考资料:
https://techcrunch.com/2024/05/21/data-labeling-startup-scale-ai-raises-1b-as-valuation-doubles-to-13-8b/
https://fortune.com/2024/05/21/scale-ai-funding-valuation-ceo-alexandr-wang-profitability/
https://scale.com/blog/scale-ai-series-f
本文来自微信公众号:新智元 (ID:AI_era)