AMD与约翰霍普金斯大学联手:AI实验室copilot自动化科研,成本节约84%!

编辑 | 2049科学研究,尤其是机器学习领域的研究,往往需要大量的时间和资源投入,从最初的构思到最终的结果产出,每一步都充满了挑战。 近年来,大型语言模型(Large Language Models,LLMs)在自然语言处理和代码生成方面取得了显著进展,这为自动化科学研究提供了新的可能性。 然而,现有的自动化研究工具通常只能处理单个环节,如文献综述或实验设计,无法实现全流程的自动化。

图片

编辑 | 2049

科学研究,尤其是机器学习领域的研究,往往需要大量的时间和资源投入,从最初的构思到最终的结果产出,每一步都充满了挑战。

近年来,大型语言模型(Large Language Models,LLMs)在自然语言处理和代码生成方面取得了显著进展,这为自动化科学研究提供了新的可能性。然而,现有的自动化研究工具通常只能处理单个环节,如文献综述或实验设计,无法实现全流程的自动化。

针对这一问题,来自 AMD 和约翰霍普金斯大学的研究团队提出了一种名为 Agent Laboratory 的创新框架。该框架利用 LLM 作为研究助手,能够从文献综述到实验设计和报告撰写全流程自动化,显著加速科学研究过程。

该框架不仅支持全自动模式,还创新性地提供了 co-pilot 协作模式,允许研究人员在关键节点提供反馈和指导,实现人机协同研究。

该研究以「Agent Laboratory: Using LLM Agents as Research Assistants」为题,于 2025 年 1 月 8 日发布在 arXiv 预印本平台。

图片

研究背景

现代 AI 研究正面临着效率与创新的双重挑战。研究人员往往需要在有限的时间和资源约束下,权衡和筛选最具潜力的研究方向。

现有的自动化研究工具存在明显局限:ResearchAgent 虽然能够生成研究想法和实验设计,但缺乏实际执行能力;The AI Scientist 虽然可以生成和执行代码,但其生成的研究论文质量有待提高。更重要的是,这些系统都采用完全自动化的方式,无法有效整合人类研究者的专业判断和创造性思维。

技术创新

Agent Laboratory 创新地提出了一个三阶段的研究辅助框架。首先是文献综述阶段,系统会根据研究者提供的主题自动检索和分析相关文献。其次是实验阶段,包括实验规划、数据准备和运行实验三个环节。最后是报告撰写阶段,系统能够基于实验结果生成规范的研究论文。

系统的核心是一个多智能体协作框架,包括多个专业化的语言模型代理:PhD 代理负责文献综述和研究规划,Postdoc 代理负责实验设计和结果解释,ML 工程师代理专注于代码实现,Professor 代理则负责论文评审和质量控制。

图片

图示:Agent Laboratory 整体框架。(来源:论文)

系统的另一个核心创新是 mle-solver 模块,它通过五个关键组件实现代码的自动生成和优化:

  • Command Execution:通过 REPLACE 和 EDIT 操作生成和修改代码
  • Code Execution:执行代码并验证其正确性
  • Program Scoring:使用 LLM reward model 评估代码质量
  • Self Reflection:基于执行结果进行自我改进
  • Performance Stabilization:通过多样性采样确保代码质量稳定

在论文生成方面,系统采用了创新的 paper-solver 模块,集成了自动化审稿功能。该功能在 500 篇 ICLR 2022 论文的评估中,达到了与人类审稿人相当的准确率(65% 对比 66%),在 F1 分数上甚至超过了人类表现(0.57 对比 0.49)。

图片

图示:Agent Laboratory 工作流程。(来源:论文)

实验验证

研究团队通过多维度实验评估了 Agent Laboratory 的性能。在模型对比中,o1-preview 在有用性方面表现最佳,评分达到 4.4/5;在报告质量方面得分为 3.4/5,与 o1-mini(3.2/5)相近;o1-mini 在实验质量方面领先,得分为 3.2/5;而 gpt-4o 虽然在各项指标上表现较弱,但其运行成本显著降低,每篇论文仅需 2.33 美元,比现有自动化研究方法节省 84%。

特别值得注意的是,研究发现人类评估和自动化评估存在显著差异。自动评估给出的平均分数为 6.1/10,而人类评估仅为 3.8/10,这一发现强调了在评估系统性能时需要更多地依靠人类专家判断。在 MLE-Bench 部分挑战任务中,系统展现了优异的实践能力,获得了 4 枚奖牌(2 金 1 银 1 铜)。

图片

图示:实验结果。(来源:论文)

结语

Agent Laboratory 的创新意义在于重新定义了 AI 辅助研究的范式。通过灵活的自动化程度和人机协作模式,系统既能提供高效的研究支持,又能保持人类研究者的创造性主导地位。

虽然当前系统在自动评估准确性和论文质量方面仍有改进空间,但其显著的成本优势和实用性已经证明了其在加速科学研究方面的潜力。随着系统的进一步完善,它有望成为推动科学发现加速的重要工具。

论文链接:https://arxiv.org/abs/2501.04227

相关资讯

IMF:不建议对生成式 AI 直接征收特别税,但各经济体需针对 AI 调整税收制度

国际货币基金组织 IMF 近日在一份报告中表示,不建议对生成式 AI 直接征收特别税,但各国需针对 AI 发展全方位调整自身税收制度,在 AI 发展和保护劳动力中取得平衡。IMF 认为,直接对生成式 AI 征收特别税来缓解这一最具颠覆性的“自动化工具”对劳动力市场的冲击在实践中并不可行,同时还会阻碍社会生产力的发展。各经济体需要将针对生成式 AI 的税收政策调整扩展到更广义的“自动化投资”领域。▲ 图源 IMF 官网部分发达经济体对旨在取代劳动力的自动化投资给予了过高的税收激励,需要重新考虑对这方面投资的支持政策,

召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强

近日,一篇关于自动化 AI 研究的论文引爆了社交网络,原因是该论文得出了一个让很多人都倍感惊讶的结论:LLM 生成的想法比专家级人类研究者给出的想法更加新颖!我们都知道通过调节 LLM 的温度值确实可以调整它们的随机性和创造性,但在科学研究方面比人类还懂创新?这还是超乎了很多人的想象 —— 至少很多人没想到这会来得这么快。难道 AI 科学家真的要来了?那么,这项来自斯坦福大学的研究究竟得出了什么样的结论呢?论文地址::: 能生成新颖的研究思路吗?为了准确地对比 LLM 与人类在科研思路创新方面的能力,斯坦福大学的这

百分点大数据技术团队:数据治理“PAI”实施方法论

编者按数据作为第五大生产要素,已逐渐成为政府和企业决策的重要手段与依据。面对数据多样化、数据需求个性化、数据应用智能化的需求,以及在2B和2G行业中数据质量参差不齐、数据应用难以发挥价值、数据资产难以沉淀等问题,如何做好数据治理工作、提升数据治理能力成为了政府和企业数字化转型的重中之重。百分点大数据技术团队基于多年的数据治理项目经验,总结了一套做好数据治理工作及提升数据治理能力的实施方法论。近年来,推动数据治理体系建设一直是业界探索的热点,另外,《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》将数