Babel 张海龙:AI Agent 将铸就一支“钢铁雄师”

作者:赖文昕编辑:陈彩娴在刚刚结束的英伟达 GTC 大会上,CEO 黄仁勋描绘了一幅在 AI 大模型影响下软件开发的新蓝图:未来做软件不太可能重头开始写一大堆代码。 “很可能你会组建一支 AI 团队。 ”黄仁勋称。

作者:赖文昕

编辑:陈彩娴

在刚刚结束的英伟达 GTC 大会上,CEO 黄仁勋描绘了一幅在 AI 大模型影响下软件开发的新蓝图:未来做软件不太可能重头开始写一大堆代码。

“很可能你会组建一支 AI 团队。”黄仁勋称。

自大模型成为潮流起,“AI 团队”的蓝图便早已初见端倪, AI Agent 赛道也成为了科技巨头与创业公司多方角逐的兵家必争之地。

3月13日,由华人创始团队 Cognition AI 发布的全球首个 AI 程序员 Devin,彻底点燃了业界对 AI Agent 与应用的热情,更掀起了一波由 AI 引发的失业焦虑与对于“AI 是否会取代人类”的终极讨论。

在这场“风暴”之中,Babel 团队站在了极靠近中心的位置——产品 Babel 同样定位为 AI 程序员,是 Devin 的直接竞品,团队也是目前国内唯一一个聚焦 Coding Agent 的初创企业。目前,Babel 瞄准的是海外市场。

Babel 能够根据需求自主规划任务、编写和调试代码、研究新问题、进行自动化测试、迭代开发并在必要时寻求人类帮助。

例如,当被要求集成新发布的 Claude 3 这一超出了大模型固有知识范围的任务时,Babel 会自主搜索SDK,找到文档,编写代码,然后进行测试和验证。最后,它会交付一个经过测试且可用的 Claude 3 集成模块。

Babel 旨在开发者的工作负担,让开发者有更多时间处理创造性工作和解决复杂问题。

“我坚持认为 AI 会替代初级程序员。”Babel 的创始人兼 CEO 张海龙说。

3月初,张海龙从深圳坐早班机去北京见投资人。前一天晚上,同事说 Babel 更新了,张海龙便在五点半起床后输入了 Babel 后台管理系统的需求,飞机一落地,项目就已完成了。

那是他们第一次完整跑通如此复杂的需求。如果同一个项目找外包团队来完成,想要拿到一个可运行的、通过测试的交付成果,大致需要一周的时间。

在决心做 Babel 前,张海龙的经历一直围绕着软件工程,并未真正进入过 AI 领域。

本科就读于复旦大学软件工程系,研究生就读于卡耐基梅隆大学(简称“CMU”)的计算机学院,张海龙毕业后便在甲骨文任职高级软件工程师。

2010年张海龙回国创业,联合创办了开源中国社区。2014年,他又创办了国内领先的开发者工具 SaaS CODING,随后在2019年被腾讯收购。

ChatGPT 的横空出世与底层模型的突破让张海龙突然意识到,未来十年所有的创业机会都和 AI 相关。带领着 CODING 时期的精锐,张海龙的第四次创业杀入了 Coding Agent 赛道。

Devin发布后,投资人有信心了

AI 科技评论:你有预料到会有 Devin 这样的竞品出现吗?

张海龙:我其实没有那么惊讶,因为这事我们能想到,别人也能想到。创业从来不是因为有特别牛的想法,关键是如何实现。

Devin 出来之前我们就确定要干 Coding Agent,但并没有引起大的反响,很多人质疑是不是有点过于超前和理想主义。我们要花很大的精力去说服投资人这个方向是对的,侧面意味着中国投资人其实信心不足,对于看起来特别超前的东西,第一个问题就是海外有没有对标。

Devin 出来后大家发现很快可以看到产品,对于行业和赛道来讲都是利好的。

AI 科技评论:那你怎么看 Devin?

张海龙:其实大家对同一个问题解决的深度不同。

Babel 张海龙:AI Agent 将铸就一支“钢铁雄师”

类比自动驾驶,L1是 Google 这类纯搜索,需要自己去组织信息;L2 是 ChatGPT 和 Copilot 这类 Prompt,可以直接问内置很多能力的 AI,AI 以用户想要的方式提供信息;

L3 是 Synthetic Search 综合搜索,相当于把前两者融合了,Perplexity 和 Devv.ai 就属于这一类,只不过 Devv.ai 聚焦 Coding,是一个垂直的 Perplexity;L4 则是 Issue Level Coding,目前看来 Devin 属于 L4,L5 是 Project Level Coding。

从语言选择上来讲,就可以看到 Devin 和我们团队的背景差异。Devin 选择 Python,我们选择 NodeJS,Python 是科学计算,但其实对软件工程不友好,我们选择 NodeJS 是因为业界做工程、做网站它就是最牛、用户量最广、生态最好的。

虽然大家的切入点不同,但都是先把一个语言做好。现在还是用 demo、演示视频比划,真刀真枪的竞争还要看谁能更快地开放使用,拿到真实的用户反馈。

AI 科技评论:那 Babel 属于 L4 还是 L5 呢?

张海龙:Babel 是从 L5 开始探索的,现在在一些更窄的领域里面,比如只做后端、一些常规项目开发,已经初步验证可行。但要使其受众面更广,要先解决 L4 的问题,所以我们计划优先发布一个 L4 的产品,叫 Gru.ai。

Gru.ai 是从 Babel 里面拆出来的一个 Agent,我们是在做 Babel 这个 L5 项目的过程中发现 Agent Team 里面需要一个 Agent 能够解决具体的技术问题。

这个问题是抽象的、不含有业务上下文、纯粹的技术问题,比如问 Claude 3 的 API 怎么调,它就会给一段经过测试的代码。我们会先把 Gru.ai 单独拉出来去服务客户。

AI 科技评论:所以你们最近要开始推出产品了。

张海龙:我们会先开放小规模使用,现在要解决最后一些产品化问题,之前都在开发功能,没有在搞稳定性。

用户对于 AI Developer 和 Agent 的容忍度还是挺高的,只要不是完全不能用或者特别傻,都还是知道潜力在哪的,所以我们没有打算做到 100% 完美再推出,因为这不可能、也没意义,还是会尽早放出来,让大家先起码在一小部分问题上面看到它能解决问题。

AI 科技评论:为什么选择从 Agent 切入?目前最成功的应该是 Copilot 模式?

张海龙:在编程这个领域,最大的成本是人,所有的商业都围绕人展开,从传统的培训、猎头、外包,到通过提供生产工具提高人的生产效率的 VSCode, Copilot 等等工具。

开发者的日常除了造火箭,还有拧螺丝,Copilot 的逻辑就是把开发者的螺丝刀换成电钻,让开发者拧的又快又好,但 Babel 的逻辑是给开发者配个小弟,开发者只要造火箭就行了,拧螺丝的事儿都是小弟干。

所以 Copilot 是一个更好的工具,但 Babel Agent 就是那个生产力,这是两件完全不一样的事情。

Copilot 是一个已经验证成功的商业模式,但它离模型太近,离模型太近的商业模式对创业公司来说,离天堂也太近。我认为真正留给创业公司的机会就是 Agent。Agent 是模型能力 + 行业 Know How + 复杂工程,创业公司还是有机会做出领先优势的。

当然这些心得我们也是探索出来的, Stephen Wolfram 的《What Is ChatGPT Doing...and Why Dose IT Work? 》给了我很多启发。

AI 科技评论:中国 2B 的 SaaS 创业企业似乎没有成功过,所以 Babel 是要走出海战略吗?

张海龙:作为一家替代程序员的公司,自然是哪里有程序员,哪里程序员贵我们去哪里,当前最大和最贵的初级程序员市场在美国,这当然是我们的首选目标。

至于国内市场,你提到国内 2B 创业的问题,确实存在,这是由于中国的整个 2B 市场仍然是大 B 驱动的,所以最终往往走向销售型/定制化的不归路,不少人说过再也不想趟大 B 这个坑,我们在腾讯也干了 3 年服务大 B,也干的很痛苦。

但是从另外一方面说,中国软件的定制化程度是最高的,这是 Babel 擅长的事情,但目前国内的大模型能力无法支撑,需要至少达到 GPT-4 的水平,我们才有希望服务国内用户。

AI Developer 是工程,不是算法

AI 科技评论:Babel 是基于 GPT-4 Turbo 搭建的,为什么会选择它?当红炸子鸡 Claude3 表现会更好吗?

张海龙:我们团队做了个开源项目 LLM-RGB,用来测评当前市面上的大模型是否达到了 Babel 需要的最低标准。LLM-RGB 并不是一个全方位的测评,只关注开发领域。

从我们测评的结果来看,可以说在 Turbo 出现之前,L4 都不成立。Turbo 在上下文长度有巨大的扩展,号称 128K,实测可能在 50K 左右。Devin 目前信息不明朗,但目测也是 GPT-4,magic.dev 则是明确自己做模型。

Claude3 出来以后,我们测试过,不需要修改任何代码/Prompts,Babel Agents 可以完美地基于 Claude3 Opus 运行,并且效果比 GPT-4 更好,但是 Claude3 Opus 太贵、太慢,暂时无法实际采用。

对于 Babel 来说,底层的模型谁好用谁,切换成本并不高。把自己做到模型无关,才能搭上最快的火车。

AI 科技评论:那 AI Developer 不需要自己的大模型吗?

张海龙:这涉及了公司的路径选择,我认为在 AI Developer 赛道自己做模型是错误的,意味着市面上所有的模型公司都是竞品,而我们更愿意站在巨人的肩上做事情。

有人会青睐小模型或垂直模型,但我持相反意见,因为只有大模型能带来智力,而智力是不分写代码写得好还是打官司打得好,是底层的东西。

AI 科技评论:你之前的经历并没有和 AI 强相关,做 AI Developer 有遇到什么技术难题吗?

张海龙:其实技术上的困难没有那么多,做 AI Developer 不是个科学或算法问题,是个工程问题,科学部分 GPT 已经帮忙做完了,工程问题是我们团队擅长的。

一个模型就像一个刚毕业的大学生,聪明,有知识,但没法去企业里直接创造价值,我们要思考的是如何把一个聪明的模型变成一个聪明的工程师。

这个过程中最难的不是碰到了技术问题,而是不知道要解什么技术问题,因为这件事情没有人做过。摸着石头过河,毕竟也没有可以参考的对象、工程方法论。

而且可用的基础设施也有限,比如当前市面上的 Multi Agent 框架一旦深入细节就会发现问题,还是得自己做。

AI 科技评论:你提到工程是 Babel 团队擅长的,你觉得这是你们的最大优势吗?

张海龙:工程能力可以帮助我们积累一些早期优势,但 AI 公司最大的优势来源于“数字化的经验积累”。互联网上所有公开信息都是结果,比如stark overflow 上的回答,Github 上的代码,都是结果。很少有人把思考的过程和真正的经验数字化,这也是员工的价值所在。

为什么老员工宝贵?就是因为很多知识经验,他的命题逻辑、解题思路和解题过程在大脑里不可传递。很多厉害的程序员在工作的时候都恨不得自己有分身术,给他多少人手都不解决问题,就是源于这种经验的不可传递性。

但 Agent 的经验可以顺便传,可以复制 100 个 Agent,同时服务 100 个客户,并行做 100 个项目。整合经验接着做第 101 个的时候,就是质的飞跃了。

Developer 赛道本质是个工程问题,不是算法问题,毕竟不是搞大模型。所以 Devin 的团队虽然光环很大,但在这个赛道的实际表现有待观察。人才的核心是团队的 chemistry,现在 AI 赛道上特别喜欢顶着各种头衔干活。虽说绝对的智商和学术上的权威很重要,但是也没有那么重要,不然 GPT 就是 Google 做出来的了。我们和 CodeGen,Pythagora 的团队基本都是干了很多年工程的人,从团队优势上,我更相信我们这个成分的团队更有优势。

同时,过去创业踩坑过程积累的经验也让我经常会反思,现在可以更好站在一个第三者视角审视我们项目的 vision、团队和状态,在一个新型的领域创业,面对技术和商业的双重不确定性,这种观察者的视角也会让我们少走些弯路。

AI 科技评论:那目前在 AI Developer 赛道创业面临着什么挑战呢?

张海龙:第一,行业竞争非常激烈,因为所有人都要往 L5 走,少说有 20 个竞争对手是拿过风险投资的,所以融资能力也很重要。

但客观来说,中国现在的融资环境确实差得很远,对于中国团队的竞争是极其不利的。但有利的地方在于中国团队的工程经验高于外国团队,我们各种非标项目、定制化开发、私有化、端到端全都干过。

第二是大模型太贵,所以依赖底层模型的进化,GPT-4 至少得再降价 10 倍,大规模开放才具有真正的可能性。不解决成本问题的话整个赛道都会完蛋。

Coding Agent 创业对所有人都挺难的,但会有一种扮演上帝的感觉,很有成就感。我们最初做一页纸需求还做得磕磕巴巴,但现在已经能处理大概四五页纸的需求了,产品的每一次演进都能带来正反馈,这种感觉真的太爽了。

数字员工崛起,人类失业?

AI 科技评论:你提到近几个月 Babel 的很多想象逐渐变成了现实,那对于未来的 Babel,你的想象或者规划是什么?

张海龙:Babel 到最后比较好的状态是成为一个卖 Agent 人头的外包公司。

比如我们以一个月 1, 000 美金卖出 Agent 后,客户负责它耗费的电力、算力各种成本,相当于从外包招了个人进来,让小弟帮干活。Babel 会持续升级这个小弟,让小弟更聪明、干活干得更好、配套上各种工具环境,就是相当于数字员工。

AI 科技评论:那你也认为在未来 AI 程序员会取代人类程序员吧?

张海龙:其实我现在已经看到了 AI Developer取代人类这件事了。

我们团队只有 10 个人,没人开发管理后台这种非核心业务,所以我变成了要去负责后台系统的人。当时我面对三种选择,第一是自己写代码、从头到尾开发系统,但这太累了;第二是找外包;第三也就是我选择的,用我们自己的 Agent 写。

之前没有 Agent 的时候,我们会找外包去处理这个问题,所以我相信对于初级程序员的替代最迟一年就会发生,我们的产品近期会发布,随着后续迭代它会更成熟,在一年以后,相信可以就替代拧螺丝的初级程序员,但高级程序员是不会被替代的。

高级程序员往往拥有专业领域的非共识知识,这些知识无法通过公开领域的信息获取。

AI 科技评论:但是高级程序员也是从初级程序员成长而来的。

张海龙:以后程序员的培养路径也会跟现在不一样,就像高科技种地一样,不需要真的从种地开始学,以后所有低端培训都可能会利空了。

AI 科技评论:除了 Coding 之外,你觉得还有哪些 Agent 会成为趋势?

张海龙:其实从最新的融资情况来看,现在在法律、财务、市场等方向上都有团队在做 Agent 了,程序员应该是数字员工这个大赛道中难度最高的一个。

我个人期待看到的是音乐和影视领域的 Agent。音乐 Agent 能全自动写完整的歌曲,包括作词、作曲,把词和曲对上并且演绎出来。影视  agent 能全自动生成一个 10 分钟的带完整情节的短剧,不是一个个片段,而包含了镜头切换、故事内容和情节。

现在看大模型,行内人士遥遥领先、各种牵头,但对于周边老百姓的生活影响很小,只有当数字员工普及,人人都是 CEO,那才是真的社会性的变革。

相关资讯

百度李彦宏:“程序员”职业将不复存在,未来编程语言只会剩下英文和中文

感谢在 3 月 9 日央视的《对话》・开年说节目上百度创始人、董事长兼首席执行官李彦宏表示,以后不会存在“程序员”这种职业了,因为只要会说话,所有人都能具备程序员的能力。“未来的编程语言只会剩下两种,一种叫做英文,一种叫做中文。”李彦宏说道。谈到“百模大战”,李彦宏看来,这是对社会资源很大的浪费。大家不要去“卷”大模型,去“卷”应用,只有应用才真正直接创造价值。同时,他强调,做出上亿用户使用的应用时,大模型的真正价值才得到体现。对于未来两年大模型会对人类生活或生产带来怎么改变,李彦宏认为,“互联网改变我们的很多生活

Devin 第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远

【新智元导读】Devin 到底是一个漂亮的 Demo,还是一个已经能替代程序员的智能体,使用体验怎么样,拿到测试资格的网友第一时间分享了自己的体验。由 10 枚 IOI 金牌在手的创业团队 Cognition AI 开发的全球首个 AI 程序员智能体 Devin,一发布就让科技圈坐立不安。在演示中,Devin 几乎已经可以独立完成很多人类程序员需要大量时间才能完成的工作,效果一点不比普通程序员差。但是,产品能力的边界在哪里,实际体验和演示时候有差距,还得看上手实测之后的效果。这位斯坦福的小哥在 Devin 发布的第

阿里云全面推行 AI 写代码,未来 20% 代码由通义灵码编写

阿里云正在内部全面推行 AI 编程,使用通义灵码辅助程序员写代码、读代码、查 BUG、优化代码等。阿里云还专门给通义灵码分配了一个正式的员工工号 ——AI001。据阿里云相关人士透露:“公司未来 20% 的代码将由通义灵码编写,但程序员仍然是研发的核心,他们将有更多时间专注于系统设计以及核心业务开发工作。”据介绍,传统开发模式下,程序员每天需要耗费大量精力编写重复性代码、调试优化、编写代码注释等基础工作,大幅挤压了核心业务代码编写的时间。在阿里云内部,通义灵码已在各个开发环节担任代码助理角色。以 API 开发测试工