开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

不到 24 小时,Star 量突破 1400。最近,有很多人在为 AI 代替自己的工作而担忧。上个月火遍 AI 圈的「首位 AI 程序员」Devin,利用大模型能力已经掌握了全栈技能,仅需要人类给出自然语言指令,就可以自动完成复杂的代码任务。Devin 展示的能力非常惊艳,不过这款工具出自走闭源路线的创业公司,现在只有一小部分获得了内测名额的人才能利用。本周二,来自普林斯顿大学 NLP 组的钻研人员放出了 SWE-agent —— 一个开源版 AI 程序员,不到一天就获得了上千的 GitHub Star 量。SWE

不到 24 小时,Star 量突破 1400。

最近,有很多人在为 AI 代替自己的工作而担忧。

上个月火遍 AI 圈的「首位 AI 程序员」Devin,利用大模型能力已经掌握了全栈技能,仅需要人类给出自然语言指令,就可以自动完成复杂的代码任务。

Devin 展示的能力非常惊艳,不过这款工具出自走闭源路线的创业公司,现在只有一小部分获得了内测名额的人才能利用。

本周二,来自普林斯顿大学 NLP 组的钻研人员放出了 SWE-agent —— 一个开源版 AI 程序员,不到一天就获得了上千的 GitHub Star 量。

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

SWE-agent 是一款用于自主解决 GitHub 保存库中课题的新系统。它在 SWE-bench 上获得了与 Devin 相似的准确度,平均耗时为 93 秒。

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

项目网站:https://swe-agent.com/

GitHub:https://github.com/princeton-nlp/SWE-agent

该项目的作者 John Yang 表示,相关论文的预印版也将在 4 月 10 号上传。开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

从原理上看,SWE-agent 通过将大模型(例如 GPT-4)转变为软件工程智能体,可以修复真实 GitHub 保存库中的错误和课题。

在完整的 SWE-bench 尝试集上,SWE-agent 解决了 12.29% 的课题,实现了 SOTA 性能。

开源版AI程序员来了:GPT-4加持,能力比肩Devin,一天1.4k Star

为了提供开发过程中的自动化,SWE-agent 通过与专用终端交互来工作,它可以打开、搜寻文献内容,利用自动语法检查、编纂特定行,也可以编写并执行尝试。

该项目的开发者精心设想了 UI 界面,并在 GitHub 上进行了介绍。

智能体 – 计算机接口 (ACI)

钻研团队设想了简单的以大模型(LM)为中心的敕令和反馈格式,使大模型能够更方便地浏览保存库、查看、编纂和执行代码文献,这被称为智能体 – 计算机接口 (ACI)。钻研团队还建立了 SWE 智能体保存库,以便轻松迭代保存库级编码智能体的 ACI 设想。

就像语言模型需要良好的提示工程(prompt engineering)一样,良好的 ACI 设想在利用智能体时会带来更好的结果。没有经过良好调整的 ACI 的基线智能体的表现比 SWE-agent 差得多。

SWE-agent 包含钻研团队在智能体 – 计算机接口设想过程中发现的非常有用的功能,包括:

1. 添加一个在发出编纂敕令时运转的 linter,如果代码语法不正确,则不会让编纂敕令通过。

2. 为智能体提供一个专门建立的文献查看器。钻研团队发现此文献查看器在每轮仅显示 100 行时效果最佳,并且该文献编纂器具有上下滚动以及在文献中执行搜寻的敕令。

3. 为智能体提供专门建立的全目录字符串搜寻敕令。钻研团队发现该工具简洁地列出立室项非常重要 —— 只需列出至少有一个立室项的每个文献。该钻研表明,向模型显示有关每个立室的更多上下文对于模型来说太混乱了。

4. 当敕令的输出为空时,返回一条消息:「您的敕令已成功运转,但未产生任何输出」。

未来发布的论文将详述更多信息。

安置与利用

要利用 SWE-agent,首先要设置好如下条件:

1. 安置 Docker,并在本地启动 Docker;

2. 安置 Miniconda,并利用 conda env create -fenvironment.yml 建立 swe-agent 环境;

3. 利用 conda activate swe-agent 激活;

4. 运转 ./setup.sh 建立 swe-agent docker 镜像;

5. 在此保存库的根目录下建立一个 keys.cfg 文献并填写以下内容:

OPENAI_API_KEY: 'OpenAI API Key Here if using OpenAI Model (optional)'
ANTHROPIC_API_KEY: 'Anthropic API Key Here if using Anthropic Model (optional)'
GITHUB_TOKEN: 'GitHub Token Here (required)'

SWE-agent pipeline 包含两个步骤:

第一步:SWE-agent 接收输入的 GitHub 课题,并返回尝试修复它的拉取请求(pull request);

第二步:评估拉取请求以验证它确实解决了课题(目前仅适用于 SWE-bench 基准尝试中的课题)。

如果想在整个 SWE-bench 上运转和评估,最简单的方法是利用 x86 机器。

python run.py --model_name gpt4 \  
--data_path https://github.com/pvlib/pvlib-python/issues/1603 --config_file config/default_from_url.yaml

python run.py --model_name gpt4 \  
--per_instance_cost_limit 2.00 \  
--config_file ./config/default.yaml

如果想运转 SWE-bench 中的单个课题,可以利用 –instance_filter:

python run.py --model_name gpt4 \  
--instance_filter marshmallow-code__marshmallow-1359

给TA打赏
共{{data.count}}人
人已打赏
应用

华为诺亚频域LLM「帝江」:仅需1/50训练利润,7B模型媲美LLaMA,推理加速5倍

2024-4-3 14:39:00

应用

国内首个AI程序员入职阿里云:专属工号AI001,KPI是一人写完公司20%代码

2024-4-3 14:59:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索