AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

首个 AI 程序员 Devin,现身明星创业公司内部群。为解决一个技术问题,Devin 借用了其创造者的账号,与客户公司的 CTO 交流,并根据回复调整了代码方案。对话之专业,围观者看了直呼这个世界太疯狂。事情发生在办公软件 Slack,截图中的 akshat 是 AI 基础设施创业公司 Modal Labs 的 CTO Akshat Bubna。Modal Labs 也是 Devin 开发商 Cognition 的首批客户之一。此时 Devin 正披着他的创造者之一、IOI 金牌得主 Steven Hao 的马甲

首个 AI 程序员 Devin,现身明星创业公司内部群。

为解决一个技术问题,Devin 借用了其创造者的账号,与客户公司的 CTO 交流,并根据回复调整了代码方案。

对话之专业,围观者看了直呼这个世界太疯狂。

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

事情发生在办公软件 Slack,截图中的 akshat 是 AI 基础设施创业公司 Modal LabsCTO Akshat Bubna

Modal Labs 也是 Devin 开发商 Cognition 的首批客户之一。

此时 Devin 正披着他的创造者之一、IOI 金牌得主 Steven Hao 的马甲。

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

对话的开始,AI 程序员 Devin 正在询问有关 Modal Lab 平台的密钥的生命周期问题,特别是密钥更新后传播到正在运行的应用程序所需的时间。

Devin 表示自己已经查阅了文档,包括密钥和环境变量指南、CLI 命令参考、API 参考以及容器生命周期钩子和参数,但依旧没有找到关于密钥传播时间的明确信息

Devin 询问了更新的密钥通常需要多长时间才能被运行中的应用程序使用,因为这对于他们的运营至关重要,了解这一点将有助于管理他们的部署流程

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

人类 CTO 解释说,当密钥更新时,他们不会使已经运行的 Modal 容器失效,但是新启动的容器将会读取更新后的值。

Devin 对此表示感谢,并决定暂时采用手动方法来管理 Modal 中的密钥,即在需要时调用 modal deploy 命令来触发相关应用程序容器的重启

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

看完整个过程后,同样是 AI 创业者的 Raunak Chowdhuri 评价到:

发现问题、创建工单、调整代码,最好的人类开发者就是这么工作的。

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

Devin 更多实测结果

拿到 Devin 早期测试资格的人和公司并不多,不过还是陆陆续续有人晒出实测结果。

热衷 AI 的沃顿商学院教授 Ethan Molick 试过后,认为其新颖的实时交互方式是最值得关注的。

您可以随时与它“交谈”,就像与人交谈一样,它会在后台不断地执行和调试您的想法。

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

在测试中,Ethan Mollick 要求 Devin 开发一个解释“创业公司融资中的股权稀释”的网站。

不过他透露,AI 还无法在没有任何帮助的情况下,自主且无差错地完成这项工作。

要想把一个重大项目交给人工智能来完成,还有很长的路要走,但这仍然是一个令人着迷的开始。

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

另一位晒出测试过程的创业者 Mckay Wrigley 更激动一些。

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

在他晒出的 27 分钟测试中,只发了一个 GitHub 连接,让 Devin 部署来自开源项目的代码。

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

Devin 自主把任务拆解成一系列子步骤,并一步步开始执行。

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

执行过程中,Devin 在安装 Supabase 数据库时遇到了障碍,自己打开了对应的 Github 仓库开始查阅文档……

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

从后续终端反馈中可以看出,Devin 查到了运行 Supabase 所需的各种端口和密匙都应该填什么。

(装过的都知道,雀食挺麻烦……)

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

与此同时,Devin 还在根据实际情况不断修改自己的后续计划

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

一段时间过后,一个本地的聊天机器人程序就跑起来了。

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

测试一段时间后 Mckay Wrigley 认为,Devin 已经可以算 Agent 的 ChatGPT 时刻。

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

复现 Devin 计划 ing

Devin 这边大伙还在接连测试,另一边开源“复现”方案也在进行中……

这不,GitHub 三万 Star 项目 MetaGPT 就上新了“开源版 Devin”。

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

名为数据解释器(Data Interpreter):

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

同 Devin 一样,Data Interpreter 也能实现自主编程,能迭代式观察数据,预测分析病情进展、机器运行状态;还能构建机器学习模型、进行数学推理、自动回复电子邮件、仿写网站……

比如从英伟达股价数据中分析收盘价格趋势:

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

分析数据预测葡萄酒质量:

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

除此以外,阿里 Qwen 成员 Binyan Hui 等人开启了 OpenDevin 项目,刚刚起步已获得 1.2k Star。

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

Binyan Hui 发推文表示,已有一个初步的路线图和一群优秀的人在努力工作,在很短的时间内就完成了前端原型。

同时项目团队也在招新成员:

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

另外,还一个名为 Maisa AI 的团队推出了 Maisa KPU(Knowledge Processing Unit),被网友认为与 Devin 有一些竞争。

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

目前 Maisa KPU 处于测试阶段,它可以解决复杂问题和推理,团队发布的基准测试结果如下:

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

根据 demo 展示,KPU 可以成为“智能客服”,在客户没有正确写好订单号的情况下,帮助客户解决订单未送达的问题:

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

Devin 基准测试技术报告发布

最近,Devin 创始团队 Cognition 还发布关于 SWE-bench 测试的技术报告。除了之前已公布的测试结果之外,团队还透露了一些新消息。

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

比如,Cognition 的目标之一是让 Devin 这个专门从事软件开发的 AI 智能体能够成功地为大型、复杂的代码库贡献代码。

选择在 SWE-bench 上端到端运行智能体,也是考虑了它更接近现实世界的软件开发。

此外,研发团队还透露,为了防止 Devin 在测试中作弊,比如查找外部的 pull requests 信息,测试已做相关设置,确保 Devin 无法访问相关信息,并且在此过程中也已人工手动检查了 Devin 运行情况。

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

最后团队强调 Devin 仍处于起步阶段,还有很大改进空间:

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

更多细节感兴趣的家人们可查看报告详情。

Devin 发布不到一周,网友们的讨论已十分热烈。比如,这位大兄弟表示自己一年前担心的事儿终究还是发生了。以后 Stack Overflow 上都是各种 Devin 在提问,人,就只能被挤出去(Stack Overflow 危!!!):

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

有网友回应(手动狗头):

它们可以互相回答问题。

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

还有网友发现 Devin 背后团队 Cognition 正在招全职软件工程师,于是缓缓打出一个问号:

Devin 不是应该填补这些职位空缺来为他们省钱吗?

AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平

最后,若 Devin 公开你会想用它干点啥?

参考链接:

[1]https://www.cognition-labs.com/post/swe-bench-technical-report

[2]https://x.com/raunakdoesdev/status/1769066769786757375

[3]https://twitter.com/emollick/status/1768742585122558063

[4]https://x.com/mckaywrigley/status/1767985840448516343

[5]https://x.com/maisaAI_/status/1768657114669429103?s=20

本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨 西风

相关资讯

受ChatGPT启发,10天完成能和数据聊天APP,回答问题不输本科生

现在,当你面对一堆数据再也不用感到头疼了!今天我们将要介绍的这个应用程序,它可以让你用英语和你的数据聊天,然后出结果!

世界最大开源 AI 社区 Hugging Face 曝安全漏洞:部分用户密钥泄露

感谢世界最大的开源 AI 社区 Hugging Face(IT之家注:通称“抱抱脸”)在 5 月 31 日报告了一起安全漏洞事件,其团队检测到对其 Spaces 平台的未经授权访问,可能导致部分用户密钥泄露。Hugging Face 是世界最大的人工智能和数据科学项目合作平台之一,拥有超过一百万个模型、数据集和人工智能驱动的应用程序。Hugging Face 发言人在声明中说:“在过去几个月里,我们看到网络攻击的数量明显增加,这可能是因为我们的使用量大幅增长,人工智能正成为主流。技术上很难知道有多少 Spaces

如何使用 Gemini API 构建视频字幕生成器

译者 | 崔皓审校 | 重楼开篇在本教程中,你将使用 Google 的 Gemini API 构建人工智能驱动的字幕生成器。 我们将创建一个名为“AI-Subtitle-Generator”的项目,该项目的前端使用 React,后端使用 Express。 准备好了吗?