还记得今年夏天让众多科研工作者“瑟瑟发抖”的 AI scientist 吗?
彼时的它,作为一个由谷歌Transformer 论文作者 Llion Jones 和前谷歌研究人员 David Ha 共同创立的全自动科学研究平台,从提出研究设想、检查创新程度,再到设计实验、编写程序、再GPU上执行实验并收集结果,到最后完成论文的撰写,一气呵成,让不少科研工作者早早就有了“事业危机感”。 此外,该项目还获得了New Enterprise Associates、Khosla Ventures、Lux Capital等多家全球知名投资机构以及NVIDIA等产业投资人的投资,进一步推动了其技术突破和市场化落地。
而这阵科学家“失业风”刚刮走没多久,又一位国产“AI科学家” Nova 便横空出世。
Nova 能够生成大量突破性的科学Idea,在创新性、价值性、可行性等方面可以媲美甚至超过人类科学家。
历史证明,突破性的Idea具有开启新技术纪元的潜力——比如Transformer的出现引领了波澜壮阔的AGI时代,ImageNet极大地加速了深度学习的发展,而最近的诺贝尔奖授予了几位AI领域的科学家,也标志着AI发展史上的一个重要转折点。如今,Nova正站在这样的历史节点上,以2.5倍于AI scientist的Idea生成能力,迅速在科研领域掀起新一轮风暴。直观地说,当AI scientist还在思考第2个Idea时,Nova已经提出了5个高质量的创新Idea,每一个都有可能成为开启未来科技新纪元的钥匙。
这个“妙 idea 连珠”的 Nova 大模型,是由西湖大学蓝振忠团队联合浙江大学、电子科技大学等多所高校研发的。
而他们的出发点,就是解决现代科研工作中的一个难题:我要做什么?
他们希望大模型可以迅速阅读最新的Paper,帮助科研工作者提取其中的关键信息,根据提取的信息,生成多个高质量的 Idea。涉及到跨领域的知识,大模型也可以轻松完成。人类科学家只需要根据模型生成的内容进行判断,大大节省了科研的时间,从而提升科研的效率。
蓝振忠说:“我身边的科学家,包括我自己做科研这么多年了,有一个特别明显的感受,就是我们虽然做着最前沿的最具探索性的事情,但实际组织工作的方式却是非常传统的,甚至像是手工作坊。”
“正因如此,Nova的诞生不仅仅是一个技术突破,更像是科研领域的一场革命,将极大地加速科研创新的过程。Nove模型的发布,只是团队迈出的第一步,后续将持续发力:
1)从0到1:先让模型在单个学科、领域实现创新,快速验证算法和模型效果,把基建和底子打好,让模型成为一个可以给科学家使用的产品。
2)从1到10:进一步拓展模型的横向能力,成为多学科的创新专家,不仅能生成创新的科学Idea,而且能自动执行验证,最终发表科研论文。
3)终极目标:让模型能够自驱地进行科学探索、商业创新,让模型推进人类的科学突破与产业提升。
妙 idea 连珠
而 Nova 的实力也并不是纸上谈兵,研究团队为了评估Nova模型的综合性能,分别从质量、多样性、新颖性三个方面对其进行了全面评估。
他们先是利用Claude-3 Sonnet作为裁判按照瑞士制锦标赛(Swiss System Tournament)对各个方法产生的idea的质量进行评估。结果显示,Nova方法生成的想法在质量上显著高于其他方法,有619和2521个想法得分为5和4,远超过其他最新的方法。
多样性方面,研究团队通过计算idea之间的相似度来对生成的idea来进行去重。实验中,随着生成的想法数量的增加,Nova 模型可以通过迭代规划和搜索不断产生新的想法。在非重复百分比方面,Nova 的表现明显优于其他方法,超过80%的想法都是不重复的。
最终,团队为了探索文章提出的方法对持续生成新的idea的影响,还进一步通过消融实验证明了该方法能持续生成新颖的非重复的idea。
实验中,当不采用文章提出的规划搜索方法时,迭代三次中的独特想法数量(44.1)与迭代两次 (42.4) 相比不再增加。这表明,如果没有规划搜索,仅依靠基于种子想法的检索会限制获取有价值的外部知识以进行创新。当规划和检索都被删除时,由于没有引入外部知识,独特新颖想法的数量在迭代两次后略有增加(从25.3增加到 30.6),在迭代三次的时候相比迭代两次则停滞不前(从30.6增加到31.35)。
除此之外,他们还找来了10位专家(包括对应领域的博士,博后以及资深教授),对生成idea在Overall(整体),Novelty(新颖性),Feasibility(可行性),Effectiveness(有效性)进行全面的评估。
最终研究人员发现在人工评估中,Nova 在整体质量和新颖性方面均获得了最高分。Nova贡献了前4个想法的 37.5%,是四种方法中最高的。此外,Nova 在最差的 4个想法中所占比例非常低,在整体质量方面仅占17.53%。在新颖性评估中也观察到了类似的模式。
研究团队透露,当他们将得到的结果拿给身边的科学家看,一众科学家都不敢相信这是AI创作的!
Nova如何给科学家“整迷糊”
Nova模型之所以能让科学家都“恍惚”,是因为它引入了一种增强的规划和搜索方法,用于提升大语言模型的能力:
迭代规划:Nova模型通过迭代的方式制定搜索计划,旨在识别能够增强当前想法新颖性和多样性的文献。这种规划过程使得模型能够不断优化生成的想法。
除了迭代规划外,Nova还有其他的方法来辅助提升模型的创新性,包括:
外部知识检索:Nova模型结合了外部知识检索机制,通过获取相关文献来丰富生成的想法。这一过程利用了最新的研究成果,确保生成的想法与当前科学前沿保持一致。
检索增强生成:使用了检索增强生成的方法,结合了检索到的信息与生成模型的内部知识,以提高生成内容的质量和相关性。
自我反思机制:为了防止生成的想法出现幻觉,模型利用了自我检查、自我批评和反思等机制,确保生成的想法逻辑合理且符合实际。
多源种子想法生成:Nova模型通过多种科学发现方法生成初始种子想法,确保生成的想法具有多样性和创新性。
综合以上方法,当Nova拿到一篇文章后,就能自动化的去想如何提出好的idea来提升当前文章里提到的方法。
比如,下面的idea是当团队把微软的Research Agent原始paper作为输入得到的优化方法,它能自动分析当前方法没有接入实时的数据流的缺陷,并提出方案去解决这个问题,具有较强的创新性。
同时还能分析引入一个实时的反馈机制和自适应的研究框架能进一步提升该方法的效果,这些都是一些实实在在可以研究和发表的idea,科学家想不“迷糊”都难:
制造“AI科学家”的科学家
西湖大学团队领导人蓝振忠,是Google轻量级大模型“ALBERT”(学术引用量约8000)的第一作者,《麻省理工科技评论》评选的2021年度亚太地区“35岁以下科技创新35人”,前Google人工智能科学家。
目前为西湖大学博士生导师,深度学习实验室创办人及负责人,西湖心辰创始人。
此外,他共同推出了对标GLUE的中文大模型评价基准ChineseGLUE(后简称为CLUE),广受业界欢迎。他还带领团队研发了侧重情感感知的西湖大模型和国内首个辅助心理咨询的AI咨询师“小天”。
而西湖心辰推出的多模态通用大模型:西湖大模型,也具备长期记忆、情感感知和主动聊天等卓越的能力。
AI可以代替人类科学家产生突破性的科学Idea吗?最后,我们再抛出这个问题。至于这个问题的答案,或许就像追逐地平线一般,每当以为接近之时,它却又在更远的地方等待,留给我们的,是永恒的追求与思考。
“但追逐的脚步不会停止。”
论文地址:https://arxiv.org/abs/2410.14255