AMD与约翰霍普金斯大学联手：AI实验室copilot自动化科研，成本节约84%！

编辑 | 2049科学研究，尤其是机器学习领域的研究，往往需要大量的时间和资源投入，从最初的构思到最终的结果产出，每一步都充满了挑战。近年来，大型语言模型（Large Language Models，LLMs）在自然语言处理和代码生成方面取得了显著进展，这为自动化科学研究提供了新的可能性。然而，现有的自动化研究工具通常只能处理单个环节，如文献综述或实验设计，无法实现全流程的自动化。

编辑 | 2049

科学研究，尤其是机器学习领域的研究，往往需要大量的时间和资源投入，从最初的构思到最终的结果产出，每一步都充满了挑战。

近年来，大型语言模型（Large Language Models，LLMs）在自然语言处理和代码生成方面取得了显著进展，这为自动化科学研究提供了新的可能性。然而，现有的自动化研究工具通常只能处理单个环节，如文献综述或实验设计，无法实现全流程的自动化。

针对这一问题，来自 AMD 和约翰霍普金斯大学的研究团队提出了一种名为 Agent Laboratory 的创新框架。该框架利用 LLM 作为研究助手，能够从文献综述到实验设计和报告撰写全流程自动化，显著加速科学研究过程。

该框架不仅支持全自动模式，还创新性地提供了 co-pilot 协作模式，允许研究人员在关键节点提供反馈和指导，实现人机协同研究。

该研究以「Agent Laboratory: Using LLM Agents as Research Assistants」为题，于 2025 年 1 月 8 日发布在 arXiv 预印本平台。

研究背景

现代 AI 研究正面临着效率与创新的双重挑战。研究人员往往需要在有限的时间和资源约束下，权衡和筛选最具潜力的研究方向。

现有的自动化研究工具存在明显局限：ResearchAgent 虽然能够生成研究想法和实验设计，但缺乏实际执行能力；The AI Scientist 虽然可以生成和执行代码，但其生成的研究论文质量有待提高。更重要的是，这些系统都采用完全自动化的方式，无法有效整合人类研究者的专业判断和创造性思维。

技术创新

Agent Laboratory 创新地提出了一个三阶段的研究辅助框架。首先是文献综述阶段，系统会根据研究者提供的主题自动检索和分析相关文献。其次是实验阶段，包括实验规划、数据准备和运行实验三个环节。最后是报告撰写阶段，系统能够基于实验结果生成规范的研究论文。

系统的核心是一个多智能体协作框架，包括多个专业化的语言模型代理：PhD 代理负责文献综述和研究规划，Postdoc 代理负责实验设计和结果解释，ML 工程师代理专注于代码实现，Professor 代理则负责论文评审和质量控制。

图示：Agent Laboratory 整体框架。（来源：论文）

系统的另一个核心创新是 mle-solver 模块，它通过五个关键组件实现代码的自动生成和优化：

Command Execution：通过 REPLACE 和 EDIT 操作生成和修改代码
Code Execution：执行代码并验证其正确性
Program Scoring：使用 LLM reward model 评估代码质量
Self Reflection：基于执行结果进行自我改进
Performance Stabilization：通过多样性采样确保代码质量稳定

在论文生成方面，系统采用了创新的 paper-solver 模块，集成了自动化审稿功能。该功能在 500 篇 ICLR 2022 论文的评估中，达到了与人类审稿人相当的准确率（65% 对比 66%），在 F1 分数上甚至超过了人类表现（0.57 对比 0.49）。

图示：Agent Laboratory 工作流程。（来源：论文）

实验验证

研究团队通过多维度实验评估了 Agent Laboratory 的性能。在模型对比中，o1-preview 在有用性方面表现最佳，评分达到 4.4/5；在报告质量方面得分为 3.4/5，与 o1-mini（3.2/5）相近；o1-mini 在实验质量方面领先，得分为 3.2/5；而 gpt-4o 虽然在各项指标上表现较弱，但其运行成本显著降低，每篇论文仅需 2.33 美元，比现有自动化研究方法节省 84%。

特别值得注意的是，研究发现人类评估和自动化评估存在显著差异。自动评估给出的平均分数为 6.1/10，而人类评估仅为 3.8/10，这一发现强调了在评估系统性能时需要更多地依靠人类专家判断。在 MLE-Bench 部分挑战任务中，系统展现了优异的实践能力，获得了 4 枚奖牌（2 金 1 银 1 铜）。