AI在线 AI在线

首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的

作者:量子位
2025-04-09 09:12
嚯! 完全由AI生成的论文,通过顶会ICLR评审? !

嚯!完全由AI生成的论文,通过顶会ICLR评审?!

分数为6/7/6,已经超过平均人类接收门槛。

论文是酱婶的。

图片

整个通篇看下来,图表论据俱全,十分有模有样。

图片

这篇论文,由首位AI科学家AI Scientist的2.0版本完成。

背后公司Sakana AI,是Transformer作者之一的Llion Jones的创业公司。

新版本2.0是一个通用端到端Agent系统,与原版本不同的是,它摆脱了对人工模版的依赖,能够自主生成假设、运行实验、分析数据并撰写科学论文,图表理解能力也更强。

它在ML领域中具有更强的泛化能力,并采用由实验管理Agent引导的渐进式代理树搜索(AgenticTreeSearch)。

就连它的GitHub开源代码库都是由大模型来编写。

图片

AI生成论文通过顶会评审

首先来看这篇完全由AI生成的论文,官方透露了诸多细节。

这篇论文的标题为:《组合正则化:增强神经网络泛化的意外障碍》。论文中的提出了一种旨在增强神经网络组成泛化的组成正则化方法,进行了大量实验以评估其影响,并分析了算子复杂性对模型性能的影响,讨论了组成正则化没有产生预期效益的潜在原因。

当时ICLR研讨会同意他们递交3篇AI生成的论文进行同行评审。

评审人员会被告知他们正在评审的论文可能是AI生成的(43篇论文中有3篇),但并不知道分配给他们的论文作者到底是不是AI。

SakanaAI准备的论文完全由AI端到端生成,没有经过人类任何修改——

AI Scientist-v2提出了科学假设,提出了测试假设的实验,编写和完善了进行这些实验的代码,运行实验,分析数据,将数据可视化为图表,并写下整个科学手稿的每一个字,从标题到最终参考文献,包括放置图表和所有格式。

整个过程,人类仅做的一个工作是,提供一个广泛的研究主题,最终他们挑选出了三篇排名前三论文(考虑到多样性和质量)提交给研讨会。

图片

△团队为每篇生成的论文撰写了全面的评论

最终,在提交的三篇论文中,有两篇论文未达到接受标准。一篇论文的平均得分为 6.33(分别是6/6/7),在所有提交的论文中排名约 45%,高于人类平均接受门槛。

图片

不过为了透明起见,这篇论文在同行评审之后被撤回,也不会在OpenReview公共论坛上发布,但是可以GitHub存储库中找到。

除此之外,他们发现AI Scientist偶尔也会犯一些引用错误。

比如将错误地将“基于 LSTM 的神经网络”归因于Goodfellow (2016),而不是正确的作者Hochreiter和Schmidhuber (1997)。

图片

而为了提高实验结果的科学准确性、可重复性和统计严谨性,他们鼓励AI Scientist重复其每个实验(已选入论文)数次。

首位AI科学家2.0

去年8月,首位AI Scientist横空出世,一出手就独立完成了10篇论文。现在的2.0生产的论文已经可以通过顶会同行评审。

值得一提的是,官方GitHub页面上,特别注明了两者的区别:AI Scientist-v2并不一定能写出比v1更好的论文,尤其是在有强大的起始模板可用的情况下。

v1遵循定义明确的模板,成功率较高,而v2则采用更广泛、更具探索性的方法,成功率较低。v1最适合具有明确目标和坚实基础的任务,而v2则专为开放式科学探索而设计。

图片

AI Scientist-v2通过将树搜索与LLM工作流相结合,该工作流程由多个阶段组成,包括自动创意生成、实验执行、图表可视化、手稿撰写和审稿。

图片

它采用代理树搜索(由实验进度管理器管理,跨越多个阶段)来生成和完善代码实现。随后的实验利用树搜索中表现最好的代码检查点(节点),对各种研究假设进行迭代测试。

图片

Transformer作者之一创业公司

背后公司Sakana AI,Transformer作者之一Llion Jones(简称狮子哥)的创业公司。

他本硕毕业于伯明翰大学,在Delcam、油管、谷歌都工作过,谷歌是他待得最久的一家公司。

据FourWeekMBA介绍称,在他之前的工作经历中,“曾两度与谷歌的工作擦肩而过”。

第一次是他刚毕业找工作时,虽然投了谷歌伦敦软件工程师的岗位,并通过了两轮电话面试,但最终相比谷歌,他选择了位于英国的CAD/CAM软件公司Delcam。

值得一说的是,在拿下谷歌offer前,恰巧遇上2009年的经济危机,狮子哥找不到工作,好几个月都只能靠领取救济金勉强度日。

第二次是工作18个月后,他又接到了谷歌的招聘电话,询问他是否想重新申请,但他依旧没去谷歌,而是随后加入了YouTube。

在Youtube做三年软件工程师期间,他对人工智能产生兴趣,自学了Coursera的机器学习课程,并终于在2015年的时候加入谷歌研究院,担任里面的高级软件工程师。

也正是在此期间,他与其他七名作者一起发表了那篇著名的Transformer论文Attention Is Al lYou Need。

除此之外,狮子哥也在谷歌参与了不少研究,包括Prot Trans、Tensor2Tensor等。

之所以选择离开谷歌,是因为公司目前已经发展到一种规模,使得他无法继续进行自己想做的工作。

除了每天都在浪费精力排查其他人的bug,他还需要花时间从这家公司中找资源,试图获得访问某些数据的权限。

创业过后,Sakana AI的工作在有序推进。

去年8月,他们首次推出了AI科学家(AI Scientist)、AI审稿人项目。在这之前,还出过大模型合并进化算法,以及研究Tranformer内部信息流动。

此次作为AI Scientist的延续,依旧由Sakana AI、UBC、牛津合作完成。

合著者包括UBC的Cong Lu和Jeff Clune以及牛津大学的Chris Lu和Jakob Foerster,两位华人以及他们的导师参与。

图片

Cong Lu,UBC(不列颠哥伦比亚大学)博士后研究员,导师是Jeff Clune。今年2月加入了DeepMind。

Cong曾在RGU(罗伯特戈登大学)就读,2019年在牛津大学拿下博士学位,他的主要研究方向是开放式强化学习和AI科学发现。

此前,他曾在Waymo和微软实习过。

图片

Chris Lu,博士毕业前在Sakana AI实习了6个月。

他本科毕业于UC伯克利,博士毕业于牛津大学,导师是Jakob Foerster。去年10月毕业之后,去到了OpenAI。

Chris目前的重要研究方向,是将进化启发的技术应用于元学习和多智能体强化学习。

2022年夏天,他曾在DeepMind以研究科学家身份实习过。

图片

虽然这次AI科学家已经可以生产出顶会级别的论文了,但这并不是他们的最终目的。

这次是顶级的机器学习会议,下次可能就是顶级科学期刊了。

比如Nature、Science啥的。

归根结底,研究团队认为最重要的不是人工智能科学与人类科学的比较,而是它的发现是否有助于人类繁荣,例如治愈疾病或扩展我们对宇宙规律的认识。

你觉得这个时刻什么时候会到来呢?

相关标签:

相关资讯

做完GPT-4完整测评,微软爆火论文称初版AGI就快来了

GPT-4 的能力什么档次?
3/24/2023 4:50:00 PM
机器之心

AI伪造论文渗透学术圈:Google Scholar成虚假科学温床,如何应对?

编辑 | 1984随着生成式 AI 技术的普及,学术界正面临着一个新的挑战:越来越多疑似由 AI 生成的研究论文正在渗透到学术期刊、档案库和知识库中。 这些论文通常借助 ChatGPT 等普及型 AI 应用来模仿学术写作风格,其危害不容忽视。 作为广受欢迎的学术搜索引擎,Google Scholar 在展示搜索结果时,并未区分这些可疑论文与经过严格质量把关的研究成果。
1/22/2025 6:27:00 PM
ScienceAI

41%博士后逃生学术界,顶刊PNAS揭残酷真相!名校光环背后曝职业危机

去年,随着LLM产品化和工程化的发展,工业界的研究岗迅速缩减,许多AI博士面临巨大的就业压力,纷纷表示后悔读博。 工业界机会稀少,学术界同样问题重重。 为此,有的博士生甚至转行去当了主播。
1/22/2025 3:14:57 PM
新智元