获1000万美元捐款，用于代码重构、上云，论文预印版平台arXiv「好起来了」

上云、代码重构一起来。对于节奏越来越快的学术研究领域而言，arXiv 是非常重要的论文预印版平台。和维基百科一样，它是个非营利性机构。当地时间本周四，康奈尔大学科技校区（Cornell Tech）宣布了 arXiv 获得巨额捐款的好消息。作为一个非营利数据库，arXiv 是所有人均可以免费访问的，长期以来一直依赖人们的捐赠。康奈尔科技校区宣布，西蒙斯基金会和美国国家科学基金会（NSF）已提供了总额超过 1000 万美元的赠款以支持 arXiv。据介绍，这笔资金将使这个拥有超过 200 万篇论文的研究存储库迁移到云端

上云、代码重构一起来。

对于节奏越来越快的学术研究领域而言，arXiv 是非常重要的论文预印版平台。和维基百科一样，它是个非营利性机构。

当地时间本周四，康奈尔大学科技校区（Cornell Tech）宣布了 arXiv 获得巨额捐款的好消息。

作为一个非营利数据库，arXiv 是所有人均可以免费访问的，长期以来一直依赖人们的捐赠。康奈尔科技校区宣布，西蒙斯基金会和美国国家科学基金会（NSF）已提供了总额超过 1000 万美元的赠款以支持 arXiv。

据介绍，这笔资金将使这个拥有超过 200 万篇论文的研究存储库迁移到云端，并对其代码进行现代化改造，以确保更高水平的可靠性、容错性和可访问性。

应该过不了几天，我们加载 arXiv 上 PDF 的速度就会加快，或许可以直接在网页上就能看论文了。

「我非常感谢西蒙斯基金会和美国国家科学基金会的巨大支持，」康奈尔科技校区杰克和里拉・尼夫西院长兼副教务长 Greg Morrisett 说道。「这项投资可以确保 arXiv 服务继续扩大规模，为更广泛的受众提供服务，并更好地为科学界服务。」

康奈尔科技校区计算机科学教授 Ramin Zabih 表示：「通过对代码库进行现代化改造并过渡到云端，我们正在加强 arXiv 的基础设施建设，并确保它持续成为学术出版物共享方面的创新源泉。」

arXiv（发音为 “archive”）于 1991 年由当时的洛斯阿拉莫斯国家实验室物理学家 Paul Ginsparg 博士创立，他当时希望对大约 100 篇研究论文进行分类。当论文如潮水般涌来之后，他尝试借助计算机程序来解决问题，据说他「通过参加十多年的机器学习研讨会」学会了如何编写该程序。

Ginsparg 现在是康奈尔大学的物理和信息科学教授。

该论文平台现在由康奈尔大学图书馆负责维护和运营，是一个巨大的学术论文预印本存储库，收集了已发表和大量尚未经过同行评审过程，或不打算在参考期刊上发表的文章。

目前 arXiv 涵盖的分支学科已包括自然科学和社会科学的多个领域，包括物理、数学、计算机科学、量化生物学、量化金融、统计学、电气工程和经济学。截止到 2022 年底，在 arXiv 上的投稿已经超过了 220 万篇。

由于 arXiv 的吸引力很大，很多领域的研究人员会在学术顶会或者期刊没有录用之前，就把自己的最新研究成果「提前发表」到这个平台上。一般人们认为这样做的好处在于「占坑」和宣传：既可以保护自己的 idea，又能扩大宣传提升学者自身的影响力。与此同时，这种做法也大大加快了学界信息传播的速度。

相比之下，即使在今天节奏较快的 AI 领域，无论会议还是期刊论文从投稿到最终可见都需要数月时间的等待，有时在此期间甚至已经出现了新的方向。

因此，arXiv 逐渐成为了很多学术领域，如数学和计算机科学的首选「投稿」地点。时至今日，经常刷 arXiv 成为了不少学者的习惯。在人工智能领域内，很多被 NeurIPS、CVPR、AAAI 等顶会收录的文章曾被提前投放在 arXiv 上获得曝光。另一方面，由于其没有非常有效的筛选机制，平台上也有很多质量较低的论文，这或许会是获得新注资后 arXiv 尝试改变的方向。

大多数时候，是否被重要期刊会议接收是评价论文质量的重要标准。不过在 arXiv 出现后，也有很多被顶会遗漏的论文在学界发挥了重要的影响力，收获了众多引用。在人工智能领域里，我们可以轻易列举出一些在 arXiv 上出现且家喻户晓，但曾被 AI 顶会拒稿的文章，比如 YOLO、transformer XL、Dropout 的研究。

计算机视觉领域里著名的目标检测算法 YOLO，其论文至今被引用数已经超过 4 万，不过当初它曾被 NIPS 拒稿，修改后转投 CVPR 2016 获得了接收。

2012 年，后来的图灵奖获得者 Geoffrey Hinton 在论文《Improving neural networks by preventing co-adaptation of feature detectors》中提出了 Dropout。同年，AlexNet 的出现开启了深度学习的新纪元。AlexNet 使用 Dropout 显著降低了过拟合，并对其在 ILSVRC 2012 竞赛中的胜利起到了关键作用。可以认为如果没有 Dropout，深度学习的大发展可能会被推迟数年。

不过这篇论文被 NIPS 2012 拒绝，现在还是 arXiv 上的预印版状态。

承载了先进科学希望的 arXiv 平台，未来会发展成什么样？

康奈尔大学表示，arXiv 开发的下一阶段将包括雇用更多软件开发人员来支持现代化工作。与此同时，计算机科学系的教职员工将在 NSF 的资助下开发新的搜索和推荐技术，这些技术计划用于支撑 arXiv 的大型用户社区，且会得到最先进的隐私保证的支持。此外，arXiv 将通过生成 HTML 和 PDF 版本的内容，为视障人士提供更好的访问。

1000 万美元的资金将很大程度上增加 arXiv 的实力。相比之下，arXiv 在 2021 年的总花费为 242 万美元。

在收获捐赠新闻发出后，人们纷纷叫好，并期待预印版平台未来的进化。