嚯!完全由AI生成的论文,通过顶会ICLR评审?!
分数为6/7/6,已经超过平均人类接收门槛。
论文是酱婶的。
整个通篇看下来,图表论据俱全,十分有模有样。
这篇论文,由首位AI科学家AI Scientist的2.0版本完成。
背后公司Sakana AI,是Transformer作者之一的Llion Jones的创业公司。
新版本2.0是一个通用端到端Agent系统,与原版本不同的是,它摆脱了对人工模版的依赖,能够自主生成假设、运行实验、分析数据并撰写科学论文,图表理解能力也更强。
它在ML领域中具有更强的泛化能力,并采用由实验管理Agent引导的渐进式代理树搜索(AgenticTreeSearch)。
就连它的GitHub开源代码库都是由大模型来编写。
AI生成论文通过顶会评审
首先来看这篇完全由AI生成的论文,官方透露了诸多细节。
这篇论文的标题为:《组合正则化:增强神经网络泛化的意外障碍》。论文中的提出了一种旨在增强神经网络组成泛化的组成正则化方法,进行了大量实验以评估其影响,并分析了算子复杂性对模型性能的影响,讨论了组成正则化没有产生预期效益的潜在原因。
当时ICLR研讨会同意他们递交3篇AI生成的论文进行同行评审。
评审人员会被告知他们正在评审的论文可能是AI生成的(43篇论文中有3篇),但并不知道分配给他们的论文作者到底是不是AI。
SakanaAI准备的论文完全由AI端到端生成,没有经过人类任何修改——
AI Scientist-v2提出了科学假设,提出了测试假设的实验,编写和完善了进行这些实验的代码,运行实验,分析数据,将数据可视化为图表,并写下整个科学手稿的每一个字,从标题到最终参考文献,包括放置图表和所有格式。
整个过程,人类仅做的一个工作是,提供一个广泛的研究主题,最终他们挑选出了三篇排名前三论文(考虑到多样性和质量)提交给研讨会。
最终,在提交的三篇论文中,有两篇论文未达到接受标准。一篇论文的平均得分为 6.33(分别是6/6/7),在所有提交的论文中排名约 45%,高于人类平均接受门槛。
不过为了透明起见,这篇论文在同行评审之后被撤回,也不会在OpenReview公共论坛上发布,但是可以GitHub存储库中找到。
除此之外,他们发现AI Scientist偶尔也会犯一些引用错误。
比如将错误地将“基于 LSTM 的神经网络”归因于Goodfellow (2016),而不是正确的作者Hochreiter和Schmidhuber (1997)。
而为了提高实验结果的科学准确性、可重复性和统计严谨性,他们鼓励AI Scientist重复其每个实验(已选入论文)数次。
首位AI科学家2.0
去年8月,首位AI Scientist横空出世,一出手就独立完成了10篇论文。现在的2.0生产的论文已经可以通过顶会同行评审。
值得一提的是,官方GitHub页面上,特别注明了两者的区别:AI Scientist-v2并不一定能写出比v1更好的论文,尤其是在有强大的起始模板可用的情况下。
v1遵循定义明确的模板,成功率较高,而v2则采用更广泛、更具探索性的方法,成功率较低。v1最适合具有明确目标和坚实基础的任务,而v2则专为开放式科学探索而设计。
AI Scientist-v2通过将树搜索与LLM工作流相结合,该工作流程由多个阶段组成,包括自动创意生成、实验执行、图表可视化、手稿撰写和审稿。
它采用代理树搜索(由实验进度管理器管理,跨越多个阶段)来生成和完善代码实现。随后的实验利用树搜索中表现最好的代码检查点(节点),对各种研究假设进行迭代测试。
Transformer作者之一创业公司
背后公司Sakana AI,Transformer作者之一Llion Jones(简称狮子哥)的创业公司。
他本硕毕业于伯明翰大学,在Delcam、油管、谷歌都工作过,谷歌是他待得最久的一家公司。
据FourWeekMBA介绍称,在他之前的工作经历中,“曾两度与谷歌的工作擦肩而过”。
第一次是他刚毕业找工作时,虽然投了谷歌伦敦软件工程师的岗位,并通过了两轮电话面试,但最终相比谷歌,他选择了位于英国的CAD/CAM软件公司Delcam。
值得一说的是,在拿下谷歌offer前,恰巧遇上2009年的经济危机,狮子哥找不到工作,好几个月都只能靠领取救济金勉强度日。
第二次是工作18个月后,他又接到了谷歌的招聘电话,询问他是否想重新申请,但他依旧没去谷歌,而是随后加入了YouTube。
在Youtube做三年软件工程师期间,他对人工智能产生兴趣,自学了Coursera的机器学习课程,并终于在2015年的时候加入谷歌研究院,担任里面的高级软件工程师。
也正是在此期间,他与其他七名作者一起发表了那篇著名的Transformer论文Attention Is Al lYou Need。
除此之外,狮子哥也在谷歌参与了不少研究,包括Prot Trans、Tensor2Tensor等。
之所以选择离开谷歌,是因为公司目前已经发展到一种规模,使得他无法继续进行自己想做的工作。
除了每天都在浪费精力排查其他人的bug,他还需要花时间从这家公司中找资源,试图获得访问某些数据的权限。
创业过后,Sakana AI的工作在有序推进。
去年8月,他们首次推出了AI科学家(AI Scientist)、AI审稿人项目。在这之前,还出过大模型合并进化算法,以及研究Tranformer内部信息流动。
此次作为AI Scientist的延续,依旧由Sakana AI、UBC、牛津合作完成。
合著者包括UBC的Cong Lu和Jeff Clune以及牛津大学的Chris Lu和Jakob Foerster,两位华人以及他们的导师参与。
Cong Lu,UBC(不列颠哥伦比亚大学)博士后研究员,导师是Jeff Clune。今年2月加入了DeepMind。
Cong曾在RGU(罗伯特戈登大学)就读,2019年在牛津大学拿下博士学位,他的主要研究方向是开放式强化学习和AI科学发现。
此前,他曾在Waymo和微软实习过。
Chris Lu,博士毕业前在Sakana AI实习了6个月。
他本科毕业于UC伯克利,博士毕业于牛津大学,导师是Jakob Foerster。去年10月毕业之后,去到了OpenAI。
Chris目前的重要研究方向,是将进化启发的技术应用于元学习和多智能体强化学习。
2022年夏天,他曾在DeepMind以研究科学家身份实习过。
虽然这次AI科学家已经可以生产出顶会级别的论文了,但这并不是他们的最终目的。
这次是顶级的机器学习会议,下次可能就是顶级科学期刊了。
比如Nature、Science啥的。
归根结底,研究团队认为最重要的不是人工智能科学与人类科学的比较,而是它的发现是否有助于人类繁荣,例如治愈疾病或扩展我们对宇宙规律的认识。
你觉得这个时刻什么时候会到来呢?