AI伪造论文渗透学术圈:Google Scholar成虚假科学温床,如何应对?

编辑 | 1984随着生成式 AI 技术的普及,学术界正面临着一个新的挑战:越来越多疑似由 AI 生成的研究论文正在渗透到学术期刊、档案库和知识库中。 这些论文通常借助 ChatGPT 等普及型 AI 应用来模仿学术写作风格,其危害不容忽视。 作为广受欢迎的学术搜索引擎,Google Scholar 在展示搜索结果时,并未区分这些可疑论文与经过严格质量把关的研究成果。

图片

编辑 | 1984

随着生成式 AI 技术的普及,学术界正面临着一个新的挑战:越来越多疑似由 AI 生成的研究论文正在渗透到学术期刊、档案库和知识库中。这些论文通常借助 ChatGPT 等普及型 AI 应用来模仿学术写作风格,其危害不容忽视。

作为广受欢迎的学术搜索引擎,Google Scholar 在展示搜索结果时,并未区分这些可疑论文与经过严格质量把关的研究成果。

通过深入分析 Google Scholar 上发现的 GPT 伪造论文,研究人员发现这些论文多集中在环境、健康和计算机科学等容易受到信息操纵的领域,这种现象无疑加剧了社会证据基础被恶意操纵的风险,特别是在一些存在政治分歧的话题上。

来自瑞典布罗斯大学图书馆与信息科学学院的研究人员通过系统性分析表明,Google Scholar 的索引机制缺乏严格的审核标准,导致其极易受到引文操纵和虚假学术论文的侵扰,对学术诚信构成潜在威胁。

研究背景

Google Scholar 因其使用便捷、服务免费且索引范围广泛等特点,常被视为可靠的学术文献来源。无论是图书馆指南、媒体报道还是信息素养教育,都经常推荐使用这一平台。

然而,与传统引文数据库相比,Google Scholar 在透明度和标准执行方面存在明显不足。它采用自动爬虫技术收录文献,主要依据技术标准而非学术质量,甚至允许未经机构认证的个人作者上传论文。

研究发现

GPT 伪造论文的规模和分布

在本研究中,研究团队共发现 139 篇疑似使用 ChatGPT 制作的欺骗性论文。这些论文的发表渠道多样:19 篇见于索引期刊,89 篇出现在非索引期刊,19 篇来自大学数据库的学生论文,另有 12 篇是预印本数据库中的工作论文。

值得注意的是,健康和环境类论文占总样本的 34%(47 篇),其中 66% 发表在非索引期刊上。这些论文往往以「医疗保健」「COVID-19」「感染」等健康领域关键词,或「分析」「可持续」「全球」等环境领域术语作为标题要素,通过组合时下流行词汇,暗示研究主题宏大而前沿。

图片

图示:欺诈性或未申报地使用 ChatGPT 的跨主题和场所的论文数量。(来源:论文)

论文的传播特征

更令人担忧的是,这些可疑论文已经深入渗透到学术交流体系的各个环节。仅就健康相关论文而言,20 篇论文分布在 20 个不同域名下,共涉及 46 个 URL。环境相关的 27 篇论文则分布在 26 个域名上,涉及 56 个 URL。

大多数论文都存在多个副本,广泛传播于 ResearchGate、ORCiD、各大期刊网站、Easychair、Frontiers、IEEE 和 Twitter 等平台。这种多点传播特征使得追踪和清除这些论文变得异常困难,即便原始发表平台撤回论文,在其他平台上的副本依然可能继续传播。

图片

图示:按主题划分的热门领域。(来源:论文)

Google Scholar的质量控制问题

作为学术交流基础设施中的重要一环,Google Scholar 的质量控制问题值得重视。其在文献收录标准方面缺乏规范、透明度和问责机制,这不仅可能损害公众对科学的信任,还会加剧平台被利用进行证据操纵的风险。要有效应对这一挑战,必须统筹考虑整个学术交流生态系统,以及各方参与者的利益与激励机制。

研究方法

研究团队采用了系统的方法论开展研究。他们利用 Python 库 Scholarly 检索 Google Scholar,搜寻包含 ChatGPT 等应用程序特征短语的论文。在获取 227 篇候选论文后,通过多人编码方式对论文内容进行分类,首先判断是否存在欺骗性使用 ChatGPT 的情况,然后将确认的欺诈论文划分为「健康」、「环境」、「计算机」和「其他」四个领域。

研究还通过描述性统计分析了不同主题和发表场所的分布情况,并对环境和健康相关论文进行了语义分析,生成词云可视化以展示主题分布特征。

图片

图示:与环境和健康相关的 GPT 捏造的可疑全文论文的字雨。(来源:论文)

结语

面对 AI 生成论文带来的挑战,我们需要多管齐下。一方面要从技术、教育和监管等层面入手,另一方面也要关注整个研究生态中的激励机制。

理解欺诈论文的传播路径和「存活」原因同样重要。具体措施可以包括:在学术搜索引擎界面增加分类过滤功能,如区分索引期刊、灰色文献和同行评议等;建立以公共利益为导向的开放获取学术搜索平台;加强对政策制定者、科学传播者和媒体工作者的教育培训。唯有多措并举,才能有效降低学术造假的可能性和危害。

相关链接: https://doi.org/10.37016/mr-2020-156

相关资讯

AI赋能蛋白质研究:SaprotHub让蛋白质AI模型训练和调用不再有门槛!

编辑 | ScienceAI近年来,AI 技术在蛋白质研究领域发挥了越来越重要的作用。 从 AlphaFold2 在结构预测任务上的脱颖而出,到各类蛋白质语言模型(PLMs)在功能预测方面的重大进展,生物研究者们可以利用各式各样的 AI 模型来辅助他们的研究。 然而,随着模型变得越来越复杂,如何训练和调用这些 AI 模型对于缺乏机器学习专业知识的研究者来说是一件非常具有挑战的任务,也因此限制了 AI 技术在实际研究中的应用。

目睹太多读博惨案之后,清华姚班助理教授写了个读博决策树

读博之前请三思。对于部分同学来说,毕业以后读博是顺理成章的人生下一步。但在收获知识、荣誉的同时,你可能也要付出很大代价。最近,清华大学姚班助理教授张焕晨的一篇读博劝退文就在知乎上引起了热议。在文章中,他详细列举了读博之前需要三思的一些问题,并用决策树的方式呈现了出来。在读完文章后,有人认为焕晨老师把读博之路描写得太痛苦了,劝退之味太浓。但焕晨老师表示,他的本意并非劝退,「故意把话说重是为了让大家认真思考」。他看到的现状是:很多优秀的同学都没有在「我适不适合读博」这个重要问题上进行过认真的思考,由此造成了很多「惨案」

华盛顿大学医学院放射系助理教授朱成成实验室招收博士后、博士生、科研助理和实习生

本期将为大家介绍新华盛顿大学医学院放射系助理教授朱成成实验室招收博士后,博士生,科研助理和实习生的相关信息。