Devin
用了一个月后发现,Devin是真不好用
与 Devin 合作一个月后,这些研究者给出了不太乐观的反馈。 在 AI 编程领域,你可能听说过 Devin,它是由初创公司 Cognition 发布的一项成果。 Devin 就像一个超级智能助手,能帮助工程师更快更好地完成工作,发布之初,很多人都称赞 Devin 是全球首位 AI 软件工程师。
全球首个“AI 程序员”Devin 全面开放:可独立开发 / 修复 bug,月费 500 美元
Devin 能够熟练运用多种编程语言,独立完成网站和应用程序的构建与部署,甚至能够自主发现并修复代码缺陷。官方表示,其已通过多家 AI 公司的实践性工程师面试,并成功在 Upwork 等自由职业平台上完成实际项目。
世界首个 AI 程序员 Devin 视频竟造假?博主逐帧解析,Devin 代码任务完成很糟糕
【新智元导读】全球首个 AI 程序员 Devin 被爆视频造假?YouTube 博主近日揭露了背后明星初创公司 Cognition 的谎言,通过逐帧分析发现,Devin 并不能独立完成 Upwork 工作。全网爆火的世界首个 AI 程序员 Devin,如今被爆出视频竟是作假?最近,一位有 35 年软件工程师经验的 YouTube 博主去逐帧复现了,Devin 完成 Upwork 任务的宣传视频。却意外发现,AI 并不能像人类工程师一样完成任务,而且非常糟糕。他将 25 分钟「揭穿 Devin 的谎言」视频公开后,一
首个AI软件工程师Devin完整技术报告出炉,还有人用GPT做出了「复刻版」
从编码、编译到调试、验证,AI 智能体能做的事情更多了。这周三,Cognition AI 团队发布的首个 AI 软件工程师 Devin 引爆了 AI 社区,引发了人们对程序员这个职业未来前景的热议。在对 Devin 的评估中,团队使用了 SWE-bench。这是一个由 GitHub 问题和拉取请求组成的软件工程系统的自动化基准测试。他们认为 SWE-bench 是一个不错的选择,它确定性地评估(通过单元测试)系统解决现实世界代码库问题的能力,并与 HumanEval 等仅限于独立功能的基准测试不同。从结果来看,在
AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平
首个 AI 程序员 Devin,现身明星创业公司内部群。为解决一个技术问题,Devin 借用了其创造者的账号,与客户公司的 CTO 交流,并根据回复调整了代码方案。对话之专业,围观者看了直呼这个世界太疯狂。事情发生在办公软件 Slack,截图中的 akshat 是 AI 基础设施创业公司 Modal Labs 的 CTO Akshat Bubna。Modal Labs 也是 Devin 开发商 Cognition 的首批客户之一。此时 Devin 正披着他的创造者之一、IOI 金牌得主 Steven Hao 的马甲
Devin 第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远
【新智元导读】Devin 到底是一个漂亮的 Demo,还是一个已经能替代程序员的智能体,使用体验怎么样,拿到测试资格的网友第一时间分享了自己的体验。由 10 枚 IOI 金牌在手的创业团队 Cognition AI 开发的全球首个 AI 程序员智能体 Devin,一发布就让科技圈坐立不安。在演示中,Devin 几乎已经可以独立完成很多人类程序员需要大量时间才能完成的工作,效果一点不比普通程序员差。但是,产品能力的边界在哪里,实际体验和演示时候有差距,还得看上手实测之后的效果。这位斯坦福的小哥在 Devin 发布的第
首个AI软件工程师上线!已通过公司面试抢程序员饭碗,华人创始团队手握10块IOI金牌
前段时间,英伟达 CEO 黄院士发出惊人言论:「都别学编程了,以后交给 AI 就行了,以后人人都是软件工程师。」当时还有很多人反对,说「AI 永远不会取代程序员。」没想到,首个人工智能软件工程师 Devin 一发布,程序员的饭碗可能真要被 AI 端走了。在 SWE-Bench 基础测试中,无需人类协助,Devin 就可以解决 13.86% 的问题。而目前的 SOTA 模型,在没有人类帮忙的情况下,只能完成 1.96% 的任务。仅从评测结果看,Devin 解决真实世界软件问题的能力要远好于当前的 GPT-4 和 Cl
全球首位 AI 软件工程师 Devin 问世:能自学新语言、开发迭代 App、自动 Debug
初创公司 Cognition 近日发布公告,宣布推出全球首个 AI 软件工程师 Devin,并号称会彻底改变人类构建软件的方式。Devin 在 SWE-bench 编码基准测试中取得了突破性的成功,展示了其执行复杂任务的能力,甚至超越了顶尖的人类工程师。*Devin 是在数据集 25% 的随机子集上进行评估的。Devin 是无辅助的,而所有其他模型都是有辅助的(这意味着模型被告知哪些文件需要编辑)。Devin 擅长长期推理能力,可以自主规划和完成软件项目,并在此过程中做出数以千计的准确决策。IT之家附上 Devin
- 1