在 AI 范围,推特博主的影响力可能比想象中要大。
经常在 X 平台(推特)上浏览 AI 论文的钻研者应该都很熟悉两位博主:AK (@_akhaliq) 和 Aran Komatsuzaki (@arankomatsuzaki)。他们每天都会精选一些论文进行展示,方便大家重点阅读。数据显示,AK 在 X 平台上的粉丝数已经接近 28 万,Aran Komatsuzaki 也超过了 8 万。
一般来说,能够得到这两位博主推选的论文通常品质都相对有保证,后续也能得到更多钻研者的关注。但是,二人的影响力到底有多大,被推选和不被推选的论文在后续的影响力上是否会拉开差距一直很难说清。
为了钻研这些问题,来自加州大学圣芭芭拉分校的几位钻研者专门写了一篇论文。结果显示,被两位博主推选的论文在被引量上是不被推选的论文的 2 到 3 倍。
论文标题:Tweets to Citations: Unveiling the Impact of Social Media Influencers on AI Research Visibility
论文链接:https://arxiv.org/pdf/2401.13782.pdf
具体来说,他们编制了一个包含 8000 多篇论文的综合数据集。这些论文涵盖了两位博主从 2018 年 12 月到 2023 年 10 月期间的推文,并伴有基于揭晓年份、揭晓地点和纲要中心的 1:1 婚配对照组。分析结果显示,得到二人推选的论文,其引用次数显著增加,中位数引用次数是对照组的 2 到 3 倍。这样的结果引发了社区的一些担忧,有人认为这代表学术界正在 TikTok 化。
不过,很多人怀疑,这个数据的因果逻辑可能是反的,因为品质更高的论文往往更容易得到这两位博主的推选,后续被引量自然更高。
对此,论文里其实给出了解决办法。他们通过精确婚配来选择对照样本,使用揭晓细节和文本嵌入作为论文品质的标记。作者表示,他们验证了他们的方法能够成功地负责论文品质,这一点从会议审稿得分的散布相似性中得到了证明。
被两位博主推选的论文与未被推选的论文 OpenReview 平均得分,来自 6 个主要的机器学习会议。图中结果表明两组论文的品质大致相当。
对于这个结果,也有人心态比较乐观,表示数学范围也有类似现象,比如陶哲轩等数学家偶尔也会在网上推选一些钻研。
但有人反驳说,AI 和数学范围的情况完全不同。一方面,AI 范围涉及大量资金投入和经济利益,这可能影响到博主推选内容的客观性和公正性。另一方面,博主在挑选论文时可能更容易关注到大实验室的论文,这对一些小实验室来说可能不太公平。
在观察到这些潜在影响后,论文作者呼吁钻研社区构建更加负责任的论文传播方式,这些方式应该尽量展示多样化的钻研中心、作者和机构,营造一种更公平的环境。
以下是论文细节。
数据采集
该钻研将具有相同基础协变量的实验组和对照组进行比较,以确定平均效果,并假设论文的被引量受时间、品质和中心的影响最大。虽然所用时间很容易测量,但论文品质和中心却很难量化。
该钻研使用论文标题和纲要的文本嵌入来近似化论文中心,整个数据采集过程由三个部分组成:
(1)采集目标集,即推特博主 @_akhaliq 和 @arankomatsuzaki 在推特上分享的论文;
(2)采集要婚配的潜在论文的大型数据集;
(3)通过将 (1) 中的论文与 (2) 中的论文在揭晓年份、揭晓地点以及标题和纲要的文本嵌入方面进行婚配来设置负责集。
分析
该钻研将推特博主 AK 和 Komatsuzaki 分享的论文与负责集的影响进行了比较,然后根据所选论文的地理散布和作者属性进行多变量分析。
该钻研采用对比分析方法测试了以下假设:
博主分享的论文与同一范围的其他论文具有相同的被引量。
博主分享的论文比同一范围的其他论文具有更高的被引量。
该钻研比较了配对的目标集和负责集,发现 AK 分享的论文的被引量中位数为 24 (95% CI: 23, 25),而对照组为 14(95% CI: 13, 15);Komatsuzaki 分享的论文被引量中位数为 31 次(95% CI:27、34),而对照组为 12 次(95% CI:10.5、13.5)。与相应的负责集相比,两个实验集散布都偏向于更高的被引量,如下图 3 所示。
如图 3 (c)(d) 所示,与对照组相比,博主分享论文散布中的三个四分位数和最大值均较高。
在 2 – 样本 Q-Q 图(图 4)中,我们可以看到测试散布的归一化分位数始终较高。每个成对样本的 Cliff’s Delta 值进一步强化了 Q-Q 结果,如表 3 所示。
表 3 的数据说明博主分享论文实际上对改变结果变量(即论文的被引量)具有重要意义。
最后,该钻研通过三个测试建立统计显著性,将实验数据的散布与负责集 Epps-Singleton (ES)、Kolmogorov-Smirnov (KS) 和 Mann-Whitney U (MWU) 的散布进行比较。如表 3 所示,所有结果的 p 值都远低于 α = 0.001。由此,该钻研可以有力推翻原假设:博主分享的论文和对照组的引用散布相同。
总体而言,有影响力的推文和被引量之间的相关性表明机器学习社区查找和阅读论文的方式发生了变化。传统上,顶级会议接受度(即评审分数)一直是未来被引量的主要指标,但该钻研表明,影响力大的博主分享论文已成为影响被引量的重要指标。
感兴趣的读者可以阅读论文原文,了解更多钻研内容。