ChatGPT发布以来,各种大模型层出不穷,对各行各业的文字、脑力工作者来说绝对是一个效率神器,产出量大大提升。
比如最近的研究成果,清华大学、芝加哥大学、Google的研究人员利用AI工具(模型性能F1值为0.876)分析了六大主要学科的6790万篇研究论文,结果发现,采用AI工具的科学家发表的论文数量增加了67.37%,获得的引用次数是未使用AI工具的科学家的3.16倍,并且还能提前4年成为团队领导者。
论文链接:https://arxiv.org/pdf/2412.07727
但凡事都有代价。
一旦打开「AI模型」的潘多拉魔盒,就代表研究人员不再广泛探索科学领域,而是专注于某个细小的课题,利用AI模型发表的论文大多都是在已有的、数据丰富的领域。
也就是说,大模型不会帮助科研人员创立一个新领域,虽然提高了个人的科研生产力,但却极大减少了整个科研集体的多样性和广泛参与度。
44年,6800万篇论文
AI工具与知识生产紧密相连,比如AlphaFold通过学习已知的蛋白质结构来准确预测尚未探索的结构,避免了传统结构推断中的资源消耗和人力成本,并因此获得了2024年诺贝尔奖。
通过深度强化学习改进的模型已经能够处理复杂的核聚变反应,并发现了新的、针对硬件优化的矩阵乘法形式,从而加速了深度学习本身的发展。
此外,大型语言模型可以非常出色地帮助科研人员修订和提炼论文写作,促进了发现结果的提炼和传播。
尽管在科研领域中,AI模型的参与度越来越高,但业界仍然没有对AI科学影响的大规模实证评估。
所以这篇论文的研究团队主要提出并回答一个问题:个体科研人员基于自身利益选择AI模型进行辅助,对整个科学界有何影响?
研究人员进行了一项大规模的定量分析,利用OpenAlex数据集中从1980年到2024年的1.09亿篇论文,选择其中六个学科(生物学、医学、化学、物理学、材料科学和地质学),涵盖了主要的自然科学学科,并特意排除掉计算机科学和工程学,以避免混入AI相关从业者的影响,最终得到约6800万篇论文。
然后利用BERT语言模型根据「标题」和「摘要」内容区分出论文中用到的技术是机器学习、某个深度学习架构,或者是基于Transformer的大模型。
研究人员采用两阶段的微调将预训练的BERT模型适应到论文识别任务:先分别基于论文的标题和摘要独立训练两个模型,再将两个优化后的个体模型集成起来,以识别所有选定的论文,无需人工选择与AI相关的触发词。
为了评估BERT模型识别的准确性,研究人员招募了一个专家团队来验证结果,在对六个重点学科中随机抽样的论文组进行独立标注时共识很高,平均Fleiss’ Kappa值为0.960,把专家标注数据当作金标准进行评估时,得到的F1分数为0.876,证明了模型的可靠性。
为了提高识别结果的可解释性,研究人员对输入标题和摘要时BERT模型最终层的平均注意力强度进行可视化,比如在分析一篇AI辅助的化学论文时,模型对「人工智能」和「深度神经网络」等术语分配了非常高的注意力权重,并且识别出的AI论文基本上都是「人工智能」和跨学科传统研究主题的结合,说明了模型如何正确解释并准确识别与AI相关的内容。
最终识别出107万篇AI辅助论文,大约占论文总数的1.57%,并且可以观察到所有学科采纳AI的趋势都在上升,AI论文和采纳AI的研究人员比例都有显著增加。
尽管各个学科每年发表的论文数量总体上升,但从1980年到2024年,AI论文的份额在地质学中增长了21.39倍,在材料科学中增长了241.36倍;同样,采纳AI的研究人员比例增长得更快,从地质学的42.36倍增长到物理学的307.40倍。
研究人员将过去几十年的AI发展划分为机器学习(ML)、深度学习(DL)和大型语言模型(LLM)时代,三个时代的增长率逐渐加快,可以看出AI在科学中的普及率不断提高,以及理解AI对科学研究和进步影响的重要性。
AI是职业生涯加速器
从引用统计数据中,研究人员注意到,从发表日期到几十年后,人工智能(AI)论文的年引用次数持续高于非AI论文,并且不同时期发表的AI论文受到的总引用次数也更高。
此外,研究人员还检查了AI辅助论文在不同期刊引用报告(JCR)分位数中的分布,结果发现,在Q1期刊中,AI论文的比例比所有期刊中的非AI论文高出18.60%;在Q2期刊中,AI论文的比例仅高出1.59%,而Q3和Q4期刊中包含AI的论文比例相对较低。
结果表明,AI辅助论文在期刊中的分布不均,且在高影响力期刊中更为普遍。
AI论文逐渐受到重视,AI研究人员的影响力也大幅增加,平均来看,采用AI的研究人员每年发表的论文数量比不使用AI的研究人员多出67.37%,获得的引用次数则是后者的3.16倍,这一趋势在各个学科中都有体现。
为了研究采用AI对职业发展的影响,文中将科研人员分为「初级」(尚未领导研究团队)和「资深」(已经领导过团队)两类,并从数据集中提取了351万条职业轨迹。
分析显示,AI研究会导致团队规模的缩小,平均每个研究团队少了1.5名科研人员,具体来说,初级科研人员的平均人数从非AI团队的2.31人减少到AI团队的1.47人(减少了36.45%),而资深科研人员的人数从4.14人减少到3.48人(减少了15.95%)。
在所有学科中,采用AI的初级科学家转变为资深科学家的概率为49.92%,比不采用AI的同行高出32.01%,表明AI为初级科学家提供了更多领导研究团队的机会,并降低了离开学术界的概率,从而促使了他们从初级到资深科学家的职业转变。
为了进一步量化这一效应,研究人员采用生死模型,并根据科学家的职业轨迹拟合模型参数λ,结果发现,采用AI的初级科学家成为资深科学家的预期时间比同行大约缩短了四年;采用AI的初级科学家的转变时间期望值为6.84年,而不采用AI的为10.90年。
进一步分析显示,这种缩短升职时间的现象在所有学科中都是普遍存在的,并且在各个学科中,参与AI论文的资深科学家平均年龄比非AI论文的资深科学家年轻。
科学探索范围收缩
随着人工智能(AI)在科学中的加速应用,以及它在推动初级科学家成为资深科学家方面的作用,人们开始关注AI对整个科学领域知识分布的潜在影响。
为了评估AI如何影响整个科学领域研究的前沿,研究人员设计了一种测量方法来描述一组研究论文所代表的「学术关注广度」。
具体来说,先使用在大量科学文献预训练的文本嵌入模型SPECTER 2.0,在给定每个领域中同样大小的样本量来计算代表AI和非AI论文的主题覆盖范围;与传统研究相比,AI研究使整个科学的集体知识广度缩小了4.96%,并且该效应在六个学科中都是一致的。
此外,当将学科细分为200多个子领域时,可以观察到超过70%的子领域的知识广度出现了收缩;当比较AI和非AI研究在每个领域知识分布的熵时,结果表明AI研究的知识分布熵明显更低,表明人们越来越关注特定问题,而不是整个领域。
也就是说,个体和集体之间采用AI的动机存在冲突和矛盾:科研人员获得了更多的个人影响力,但整个科学领域知识的范围却缩小了,只是将注意力集中在最适合AI研究的领域,例如那些数据丰富的领域。
尽管AI可能为科学家个人带来了好处,但可能也会使科学作为一个整体的探索范围变得更加狭窄。
AI研究一窝蜂,创新冗余
为了分析AI研究中个体论文和研究者影响力增长与领域知识范围缩小之间的冲突背后的机制,研究人员考察了引用AI辅助和非AI工作的论文之间的关系。
首先检查单个论文的「引用家族」(citation families)的知识空间特征,即一篇原创论文及其所有后续引用,结果显示,与非AI论文相比,单个AI论文的引用家族的知识空间更为多样性,因此,领域知识空间的缩小并不是由于在AI与非AI研究基础上构建的论文范围的缩小所致。
之后,研究人员通过测量后续论文参与度的程度来考察论文之间的关系,即同一原创论文的引用之间相互引用的频率,结果表明,AI研究产生的后续参与度比非AI研究少了24.40%,表明AI论文更倾向于扩展原创论文,而不是在彼此之间形成互动,而互动恰恰是促进新兴领域的关键要素。
在不同领域中AI论文引用的马太效应中也发现了这种集中的进一步证据:在AI研究中,少数超级明星论文主导了该领域,大约20%的顶级论文获得了80%的引用,50%的论文获得了95%的引用,这种不平等的分布导致了AI研究引用模式的基尼系数为0.753,高于非AI论文的0.684,表明认可度的不平等正在增加。
最后,研究人员还检查了引用同一原始工作的论文对在向量空间中的距离,区分出相互引用的论文,结果发现,科学界的AI更加集中于特定的热门话题,导致了更多的重复想法和冗余创新,与科学知识范围和多样性的缩小有关。