首个AI科学家发论文进ICLR！得分6/7/6，从选题到实验全程零人工，连GitHub代码库都是AI写的

作者：量子位

2025-04-09 09:12

嚯！完全由AI生成的论文，通过顶会ICLR评审？！

分数为6/7/6，已经超过平均人类接收门槛。

论文是酱婶的。

整个通篇看下来，图表论据俱全，十分有模有样。

这篇论文，由首位AI科学家AI Scientist的2.0版本完成。

背后公司Sakana AI，是Transformer作者之一的Llion Jones的创业公司。

新版本2.0是一个通用端到端Agent系统，与原版本不同的是，它摆脱了对人工模版的依赖，能够自主生成假设、运行实验、分析数据并撰写科学论文，图表理解能力也更强。

它在ML领域中具有更强的泛化能力，并采用由实验管理Agent引导的渐进式代理树搜索（AgenticTreeSearch）。

就连它的GitHub开源代码库都是由大模型来编写。

AI生成论文通过顶会评审

首先来看这篇完全由AI生成的论文，官方透露了诸多细节。

这篇论文的标题为：《组合正则化：增强神经网络泛化的意外障碍》。论文中的提出了一种旨在增强神经网络组成泛化的组成正则化方法，进行了大量实验以评估其影响，并分析了算子复杂性对模型性能的影响，讨论了组成正则化没有产生预期效益的潜在原因。

当时ICLR研讨会同意他们递交3篇AI生成的论文进行同行评审。

评审人员会被告知他们正在评审的论文可能是AI生成的（43篇论文中有3篇），但并不知道分配给他们的论文作者到底是不是AI。

SakanaAI准备的论文完全由AI端到端生成，没有经过人类任何修改——

AI Scientist-v2提出了科学假设，提出了测试假设的实验，编写和完善了进行这些实验的代码，运行实验，分析数据，将数据可视化为图表，并写下整个科学手稿的每一个字，从标题到最终参考文献，包括放置图表和所有格式。

整个过程，人类仅做的一个工作是，提供一个广泛的研究主题，最终他们挑选出了三篇排名前三论文（考虑到多样性和质量）提交给研讨会。

△团队为每篇生成的论文撰写了全面的评论

最终，在提交的三篇论文中，有两篇论文未达到接受标准。一篇论文的平均得分为 6.33（分别是6/6/7），在所有提交的论文中排名约 45%，高于人类平均接受门槛。

不过为了透明起见，这篇论文在同行评审之后被撤回，也不会在OpenReview公共论坛上发布，但是可以GitHub存储库中找到。

除此之外，他们发现AI Scientist偶尔也会犯一些引用错误。

比如将错误地将“基于 LSTM 的神经网络”归因于Goodfellow (2016)，而不是正确的作者Hochreiter和Schmidhuber (1997)。

而为了提高实验结果的科学准确性、可重复性和统计严谨性，他们鼓励AI Scientist重复其每个实验（已选入论文）数次。

首位AI科学家2.0

去年8月，首位AI Scientist横空出世，一出手就独立完成了10篇论文。现在的2.0生产的论文已经可以通过顶会同行评审。

值得一提的是，官方GitHub页面上，特别注明了两者的区别：AI Scientist-v2并不一定能写出比v1更好的论文，尤其是在有强大的起始模板可用的情况下。

v1遵循定义明确的模板，成功率较高，而v2则采用更广泛、更具探索性的方法，成功率较低。v1最适合具有明确目标和坚实基础的任务，而v2则专为开放式科学探索而设计。

AI Scientist-v2通过将树搜索与LLM工作流相结合，该工作流程由多个阶段组成，包括自动创意生成、实验执行、图表可视化、手稿撰写和审稿。

它采用代理树搜索（由实验进度管理器管理，跨越多个阶段）来生成和完善代码实现。随后的实验利用树搜索中表现最好的代码检查点（节点），对各种研究假设进行迭代测试。

Transformer作者之一创业公司

背后公司Sakana AI，Transformer作者之一Llion Jones（简称狮子哥）的创业公司。

他本硕毕业于伯明翰大学，在Delcam、油管、谷歌都工作过，谷歌是他待得最久的一家公司。

据FourWeekMBA介绍称，在他之前的工作经历中，“曾两度与谷歌的工作擦肩而过”。

第一次是他刚毕业找工作时，虽然投了谷歌伦敦软件工程师的岗位，并通过了两轮电话面试，但最终相比谷歌，他选择了位于英国的CAD/CAM软件公司Delcam。

值得一说的是，在拿下谷歌offer前，恰巧遇上2009年的经济危机，狮子哥找不到工作，好几个月都只能靠领取救济金勉强度日。

第二次是工作18个月后，他又接到了谷歌的招聘电话，询问他是否想重新申请，但他依旧没去谷歌，而是随后加入了YouTube。

在Youtube做三年软件工程师期间，他对人工智能产生兴趣，自学了Coursera的机器学习课程，并终于在2015年的时候加入谷歌研究院，担任里面的高级软件工程师。

也正是在此期间，他与其他七名作者一起发表了那篇著名的Transformer论文Attention Is Al lYou Need。

除此之外，狮子哥也在谷歌参与了不少研究，包括Prot Trans、Tensor2Tensor等。

之所以选择离开谷歌，是因为公司目前已经发展到一种规模，使得他无法继续进行自己想做的工作。

除了每天都在浪费精力排查其他人的bug，他还需要花时间从这家公司中找资源，试图获得访问某些数据的权限。

创业过后，Sakana AI的工作在有序推进。

去年8月，他们首次推出了AI科学家（AI Scientist）、AI审稿人项目。在这之前，还出过大模型合并进化算法，以及研究Tranformer内部信息流动。

此次作为AI Scientist的延续，依旧由Sakana AI、UBC、牛津合作完成。

合著者包括UBC的Cong Lu和Jeff Clune以及牛津大学的Chris Lu和Jakob Foerster，两位华人以及他们的导师参与。

Cong Lu，UBC（不列颠哥伦比亚大学）博士后研究员，导师是Jeff Clune。今年2月加入了DeepMind。

Cong曾在RGU（罗伯特戈登大学）就读，2019年在牛津大学拿下博士学位，他的主要研究方向是开放式强化学习和AI科学发现。

此前，他曾在Waymo和微软实习过。

Chris Lu，博士毕业前在Sakana AI实习了6个月。

他本科毕业于UC伯克利，博士毕业于牛津大学，导师是Jakob Foerster。去年10月毕业之后，去到了OpenAI。

Chris目前的重要研究方向，是将进化启发的技术应用于元学习和多智能体强化学习。

2022年夏天，他曾在DeepMind以研究科学家身份实习过。

虽然这次AI科学家已经可以生产出顶会级别的论文了，但这并不是他们的最终目的。

这次是顶级的机器学习会议，下次可能就是顶级科学期刊了。

比如Nature、Science啥的。

归根结底，研究团队认为最重要的不是人工智能科学与人类科学的比较，而是它的发现是否有助于人类繁荣，例如治愈疾病或扩展我们对宇宙规律的认识。

你觉得这个时刻什么时候会到来呢？

做完GPT-4完整测评，微软爆火论文称初版AGI就快来了

GPT-4 的能力什么档次？

3/24/2023 4:50:00 PM

机器之心

AI伪造论文渗透学术圈：Google Scholar成虚假科学温床，如何应对？

编辑 | 1984随着生成式 AI 技术的普及，学术界正面临着一个新的挑战：越来越多疑似由 AI 生成的研究论文正在渗透到学术期刊、档案库和知识库中。这些论文通常借助 ChatGPT 等普及型 AI 应用来模仿学术写作风格，其危害不容忽视。作为广受欢迎的学术搜索引擎，Google Scholar 在展示搜索结果时，并未区分这些可疑论文与经过严格质量把关的研究成果。

1/22/2025 6:27:00 PM

ScienceAI