Devin
用了一个月后发现,Devin是真不好用
与 Devin 合作一个月后,这些研究者给出了不太乐观的反馈。 在 AI 编程领域,你可能听说过 Devin,它是由初创公司 Cognition 发布的一项成果。 Devin 就像一个超级智能助手,能帮助工程师更快更好地完成工作,发布之初,很多人都称赞 Devin 是全球首位 AI 软件工程师。
1/18/2025 6:37:00 PM
机器之心
全球首个“AI 程序员”Devin 全面开放:可独立开发 / 修复 bug,月费 500 美元
Devin 能够熟练运用多种编程语言,独立完成网站和应用程序的构建与部署,甚至能够自主发现并修复代码缺陷。官方表示,其已通过多家 AI 公司的实践性工程师面试,并成功在 Upwork 等自由职业平台上完成实际项目。
12/12/2024 8:31:35 AM
清源
世界首个 AI 程序员 Devin 视频竟造假?博主逐帧解析,Devin 代码任务完成很糟糕
【新智元导读】全球首个 AI 程序员 Devin 被爆视频造假?YouTube 博主近日揭露了背后明星初创公司 Cognition 的谎言,通过逐帧分析发现,Devin 并不能独立完成 Upwork 工作。全网爆火的世界首个 AI 程序员 Devin,如今被爆出视频竟是作假?最近,一位有 35 年软件工程师经验的 YouTube 博主去逐帧复现了,Devin 完成 Upwork 任务的宣传视频。却意外发现,AI 并不能像人类工程师一样完成任务,而且非常糟糕。他将 25 分钟「揭穿 Devin 的谎言」视频公开后,一
4/14/2024 12:47:11 PM
清源
首个AI软件工程师Devin完整技术报告出炉,还有人用GPT做出了「复刻版」
从编码、编译到调试、验证,AI 智能体能做的事情更多了。这周三,Cognition AI 团队发布的首个 AI 软件工程师 Devin 引爆了 AI 社区,引发了人们对程序员这个职业未来前景的热议。在对 Devin 的评估中,团队使用了 SWE-bench。这是一个由 GitHub 问题和拉取请求组成的软件工程系统的自动化基准测试。他们认为 SWE-bench 是一个不错的选择,它确定性地评估(通过单元测试)系统解决现实世界代码库问题的能力,并与 HumanEval 等仅限于独立功能的基准测试不同。从结果来看,在
3/18/2024 11:57:00 AM
机器之心
AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平
首个 AI 程序员 Devin,现身明星创业公司内部群。为解决一个技术问题,Devin 借用了其创造者的账号,与客户公司的 CTO 交流,并根据回复调整了代码方案。对话之专业,围观者看了直呼这个世界太疯狂。事情发生在办公软件 Slack,截图中的 akshat 是 AI 基础设施创业公司 Modal Labs 的 CTO Akshat Bubna。Modal Labs 也是 Devin 开发商 Cognition 的首批客户之一。此时 Devin 正披着他的创造者之一、IOI 金牌得主 Steven Hao 的马甲
3/17/2024 5:15:57 PM
远洋
Devin 第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远
【新智元导读】Devin 到底是一个漂亮的 Demo,还是一个已经能替代程序员的智能体,使用体验怎么样,拿到测试资格的网友第一时间分享了自己的体验。由 10 枚 IOI 金牌在手的创业团队 Cognition AI 开发的全球首个 AI 程序员智能体 Devin,一发布就让科技圈坐立不安。在演示中,Devin 几乎已经可以独立完成很多人类程序员需要大量时间才能完成的工作,效果一点不比普通程序员差。但是,产品能力的边界在哪里,实际体验和演示时候有差距,还得看上手实测之后的效果。这位斯坦福的小哥在 Devin 发布的第
3/17/2024 8:58:23 AM
清源
首个AI软件工程师上线!已通过公司面试抢程序员饭碗,华人创始团队手握10块IOI金牌
前段时间,英伟达 CEO 黄院士发出惊人言论:「都别学编程了,以后交给 AI 就行了,以后人人都是软件工程师。」当时还有很多人反对,说「AI 永远不会取代程序员。」没想到,首个人工智能软件工程师 Devin 一发布,程序员的饭碗可能真要被 AI 端走了。在 SWE-Bench 基础测试中,无需人类协助,Devin 就可以解决 13.86% 的问题。而目前的 SOTA 模型,在没有人类帮忙的情况下,只能完成 1.96% 的任务。仅从评测结果看,Devin 解决真实世界软件问题的能力要远好于当前的 GPT-4 和 Cl
3/13/2024 2:47:00 PM
机器之心
全球首位 AI 软件工程师 Devin 问世:能自学新语言、开发迭代 App、自动 Debug
初创公司 Cognition 近日发布公告,宣布推出全球首个 AI 软件工程师 Devin,并号称会彻底改变人类构建软件的方式。Devin 在 SWE-bench 编码基准测试中取得了突破性的成功,展示了其执行复杂任务的能力,甚至超越了顶尖的人类工程师。*Devin 是在数据集 25% 的随机子集上进行评估的。Devin 是无辅助的,而所有其他模型都是有辅助的(这意味着模型被告知哪些文件需要编辑)。Devin 擅长长期推理能力,可以自主规划和完成软件项目,并在此过程中做出数以千计的准确决策。IT之家附上 Devin
3/13/2024 10:06:03 AM
故渊
- 1
资讯热榜
上海AI实验室开源InternVL3系列多模态大型语言模型
Haisnap横空出世,小白用户也能轻松打造AI应用
「交交」媲美GPT-4o!上海交大推出口语对话情感大模型,首个纯学术界自研!
kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4o
本地部署DeepSeek+DiFy平台构建智能体应用
韩国初创公司 RLWRLD 获 1480 万美元融资,致力于机器人基础模型开发
ChatGPT重磅更新:新增图像库功能,可查看自己用GPT生成的所有图片
击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
深度学习
AI视频
模态
人形机器人
驾驶
xAI
文本
搜索
字节跳动
大语言模型
Copilot
Claude
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
DeepMind
训练