【新智元导读】Devin 到底是一个漂亮的 Demo,还是一个已经能替代程序员的智能体,应用体会怎么样,拿到测试资格的网友第一时光分享了自己的体会。
由 10 枚 IOI 金牌在手的创业团队 Cognition AI 开发的全球首个 AI 程序员智能体 Devin,一发布就让科技圈坐立不安。
在示范中,Devin 几乎已经可以独立实现很多人类程序员需要大量时光才能实现的工作,效果一点不比普通程序员差。
但是,产品能力的边界在哪里,实际体会和示范时候有差距,还得看上手实测之后的效果。
这位斯坦福的小哥在 Devin 发布的第一时光就联系了团队,获得了第一手体会的资格。
他让 Devin 帮它做了几个难度不一的项目,录制了一个视频,在推上写下了自己的应用感受。
首先是让 Devin 做一个用 API 获取股票价格的软件:
下一个任意是让 Devin 做一个可以让普通用户直接与大模型下棋的网站。
需求复杂的编程任意还搞不定
用户下一步棋,零碎会翻译成提醒词给 GPT-4,然后 GPT-4 进行回复,然后回复再被转换为反映在棋盘上的具体某一步棋。
按照小哥的请求,零碎需要由相当多的部件组成。
他个人最为关注在这个零碎的开发流程中,Devin 能不能做到以下几点:
知道如何准确地应用 GPT-4 API,因为大多数 LLM 实际上并不知道如何应用,并且 API 的调用存在版本冲突。
正确地申请 API 密钥并安全地处置。
处置包错误。
了解如何提醒 LLM 下棋并能精确地返回提醒词。
令小哥想不到的是,Devin 不仅请求小哥提供 API 密钥,而且在试用流程中还可以正确地保护它。
不过,Devin 目前反馈速度还相当慢,小哥推测是因为后台发生的代理提醒远远比要看到的要多得多。
从小哥发起申请开始,它花了大约 19 分钟才询问 API 密钥。
小哥猜测,如果提早是由于他们在后台运行大量提醒造成的,那么提早应该会随着时光的推移而加快。
因为他们以后可以访问专用 GPU 或与 Claude 或 OpenAI 合作降低提早(估计是 GPT-4 或 Claude Opus)。
Devin 首先制定了一个规划。
在右上角,用户可以切换「跟随」状态,这样用户可以将屏幕自动移动到#Devin 当前激活了的选项卡上。
小哥没有打开跟随状态,因为他希望随时观察各个位置的变化。
规划器会随时保持针对当前任意的更新状态。
Shell 看起来和普通的 Shell 没什么区别,但用起来真的很有趣!
Devin 在工作流程中会打开多个 shell,在 shell 的底部,用户可以拖动蓝色滑块来往前查看 Devin 编写的命令。
下图是它当在尝试调试棋盘未渲染的内容。
与此同时,小哥请求它再执行一个数据分析的任意。
小哥让 Devin 去「创建一张过去五十年南极洲海水温度的地图」。
对于这个申请,小哥觉得有两个方面可能很具有挑战性:
处置空间数据绘图 / 可视化。
知道在哪里下载数据,而且了解如何应用数据源,因为地理空间数据处置起来很麻烦。
Devin 能像一个优秀的程序员一样聪明地阅读自述文件,并且还执行一些基本的 EDA 来理解数据结构。
数据居然是一个 ascii 文件,小哥觉得有点奇怪。
小哥单击对话「调试 Python 脚本…」中的其中一个步骤时,它会打开与该步骤相关的代码库部分,因此可以跟踪某一个具体时光点发生的情况。
小哥比较担心的是,如果不是必须要询问 API 密钥,Devin 仿佛会不停地编码停不下来。
所以他试了试是否可以更改他之前提出的申请或指定其他内容,中断 Devin 的编码流程。
因为对于大部分用户在编码时,都有可能会改变主意或者有一些新的东西想要添加进零碎之中,能够处置这种情况是很有必要的。
这是编码流程中的截图:
浏览器界面的呈现方式如下:
然后小哥又提了针对数据可视化的任意又提了一个请求,让零碎将高温设置为蓝色,低温设置为红色。
为了不中断编码的流程,仿佛 Devin 又开启了一个工作线程来记录小哥的临时请求。
最终,Devin 将 App 安排到了 Netlify 上了,一个应用已经上线了。
网页的链接:https://t.co/wTbtz2waDn
就像人类写的程序一样,第一个版本肯定是有 Bug 的。
因为小哥请求的是南极洲的温度记录,仿佛对于 Devin 来说它理解起来有些障碍。
于是小哥把请求显示的位置改为了北美。
总结
小哥没有给出 Devin 修改了 Bug 的结果,只是初步总结了用 Devin 开发的第一个网站的应用体会。
先说优点:
Devin 产品化做得很好,他给人的应用体会是一个完整的产品而不是只是一个简单的对话框。
AI 是零碎最关键的部分,但支撑 AI 功能的产品化的结构是 Devin 的亮点。
Devin 能够实现自动安排,API 密钥保护,随时修改和添加需求等等非常好的各种功能。
产品的实现度已经非常高了,远远超过了一般的示范 Demo。
再说缺点:
Devin 的反应还很慢,当然小哥也说,因为他用的是 1M 的 Starlink 来上网,所以反应慢很有可能是他自己的原因。
其次就是还不能允许用户直接自己编辑代码,而且也没法协作实现。
当然,最初那个下棋的应用,难住了 Devin,最终没有实现安排。而那个数据可视化的任意,仿佛也有些 Bug。
最终,小哥用 Devin 做了一个 chrome 插件,可以帮助用户把 Github repo 转化成 Claude prompt。
插件下载地址:https://t.co/k3l8JTWK7Z
网友评价
网友看了这个实测之后还是感觉有点失望,毕竟这个任意一个初级程序员是能做到的,但是 Devin 的可视化项目的结果只做出了一个有 Bug 的网页。
看样子 Devin 本质上还只是一个可以上网的大模型,现在要让他解决实际问题还有难度。
参考资料:
Devin is now…training a Transformer LLM
i asked it to make its own version of @karpathy nanogpt https://t.co/LHYReoVmvT pic.twitter.com/CWSYet4eYH
— andrew gao (@itsandrewgao) March 13, 2024
Devin is 𝘪𝘯𝘤𝘳𝘦𝘥𝘪𝘣𝘭𝘦 at data extraction. Over the past few weeks, I've been scraping data from different blogs and Devin
1. writes the scraper to navigate the website
2. executes the code
3. returns a labeled CSV fileDevin is a multi-step agent that actually works 🤯 https://t.co/HO9nAxTvdC pic.twitter.com/SBNAq4oaoI
— Varun Shenoy (@varunshenoy_) March 12, 2024
本文来自微信公众号:新智元 (ID:AI_era)