AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

DALL⋅E 想象的 2023 年 AI for Science（与AI4Science目前的发展类似：图像不完美，许多单词拼写错误）。作者 | AI4Science workshop组织者编辑 | ScienceAI2021年，一群热血青年提出了要把AI4Science（AI for Science）带入机器进修顶会NeurIPS。什么？AI4Science是一门学科吗？是不是靠着AI蹭热点？各种质疑声接踵而来。这些质疑和不解也反映在了第一届AI4Science workshop的较为平淡的群众参与度上。时过境迁

DALL⋅E 想象的 2023 年 AI for Science（与AI4Science目前的发展类似：图像不完美，许多单词拼写错误）。

作者 | AI4Science workshop组织者

编辑 | ScienceAI

2021年，一群热血青年提出了要把AI4Science（AI for Science）带入机器进修顶会NeurIPS。

什么？AI4Science是一门学科吗？是不是靠着AI蹭热点？各种质疑声接踵而来。

这些质疑和不解也反映在了第一届AI4Science workshop的较为平淡的群众参与度上。

时过境迁，两年的时间见证了DeepMind鉴于AlphaFold建立Isomorphic Lab，微软建立AI4Science Initiative, 以及国内深势科技，AISI等大力推动AI4Science建设的企业，学术机构的不断发展壮大。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

2023年8月，Al4Science workshop组织者们还在《自然》杂志上发表了一篇综述文章，总结了过去几年里Al4Science在迷信发觉流程上的希望，并为未来指了指路。

去年12月NeurIPS，AI4Science workshop收到超过200篇投稿和上千人次的参与，俨然成为了NeurIPS最大的workshop之一。看到这些数字，似乎已经没有人再说AI4Science是伪命题了。

近日，Al4Science workshop组织者们发表一篇博客。提到了为什么要强调AI4Science？总结了AI4Science在2023年取得的希望，涵盖了从化学、生物、计算机迷信/数学迷信、物理、地球迷信、神经迷信到医学的各个规模。最后，组织者们送上了他们对AI4Science在2024年发展的期望。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

Blog 地址：https://medium.com/@AI_for_Science/ai-for-science-in-2023-a-community-primer-d2c2db37e9a7

为什么要强调AI4Science？

随着AI在多个学科各放异彩，另一个问题接踵而至，为什么要强调AI4Science，大家分别做AI在子规模的利用，比如AI4Drug和AI4Materials，不就好了吗？组织者们指出了这样几个原因。

跨规模的协同作用：AI4Science的诞生，不仅促进了AI和各种迷信学科之间的协同关系，还在AI和迷信的不同子规模间搭建了桥梁。这种跨学科的互动，就像给迷信研究加了一把火，不断在不同规模催生交融的解决方案。

知识的层级组织：就像学科的不同分类一样，AI4Science代表了一个更高阶的规模，它包含并超越了专门的子规模。AI4Science提供了一个宏观视角，将AI在特定迷信规模的更专注利用连接起来，并赋予它们更广泛的背景和意义。

解决社群大寻衅：AI4Science独具慧眼，专门解决广泛的、超越单一学科的社群大规模寻衅。通过集合多元化的观点和专长，我们的社群不仅能对付迷信难题，还能面对诸如多样性、资源、道德和教育等社群系统性寻衅

独特的协作机会: AI4Science汇集了面临共同寻衅和方法论的各规模专家，并且培养年轻一代共享知识，更有效地解决庞杂问题的习惯。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

AI4Science在2023年到底有什么希望呢？

说了这么多，AI4Science在2023年到底有什么希望呢？组织者们先是给出了一些概括性的总结：

大型语言模型（LLMs）正影响着所有规模。它们改变了人类与机器的互动方式，并揭示了在各个规模的影响力，从化学和生物学的试验规划，到计算机迷信中寻找更好的算法，乃至在医学中扮演通才型AI代理。说白了，LLMs就像万金油，无所不能，不仅帮你搞对话小助手，还能帮你做试验。

自动化试验室用于数据生成和试验。过去一年里，将AI集成到试验规划中，并使用机器人进行自动化执行，这一大进步架起了试验合成和验证之间的桥梁。虽然这些举措还处于发展的初期阶段，但它们揭示了不错的潜力，不仅能测试AI规划算法，还能显著提高数据生成的质量和数量。这反过来加速了试验验证，有助于完成AI发觉的闭环。

生成模型用于设计。不只有LLM可以帮助我们生成，散布模型也可以！散布模型在多个规模，如设计新功能蛋白、捕获化学反应中的过渡构造、从大脑活动重构图像，和量子色动力学中采样场配置方面均取得了成功。

发展原子大模型。通用的预训练得到大模型，随后在下游任务中进行微调。这种做法在迷信规模越来越流行。去年这一方面的努力，尤其是针对原子力场和生物系统的“基础大模型”，逐渐多了起来。

大型科技公司正在推动AI4Science的边界。微软、谷歌DeepMind、Meta、英伟达这样的大型科技公司对AI4Science投入明显增加。他们卓越的计算能力和AI迷信家的储备在推动利用AI的各个迷信规模的进步方面越来越有影响力。

开源闭源之争。遗憾的是，近一年越来越多的AI4Science工作选择不开源，连学术界都不例外。这呼吁我们重新探讨重点为可重复性的出版标准。这种讨论对于指导迷信界负责任且有效的共享至关重要。毕竟AI相关的规模就是凭借着开源才一直高速发展的。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

回顾2023一年的AI4Science，组织者们将七大学科分了分类，其中物理，化学材料，生物和医药的发展日益成熟，慢慢与试验结合并且逐渐走向商业化。

物理

处理完首张黑洞照片后，AI又帮助人们识别了高能中微子信号。

IceCube团队使用机器进修模型分析来自IceCube Neutrino Observatory的数据，区分信号和背景数据，这使得高能中微子从银河平面的发射被以前所未有的精确度检测到。研究使用卷积神经网络进行事件选择，其高速推理（几毫秒）能力使得研究者可以采取更为庞杂的事件筛选策略。

通过十年的观测数据，机器进修模型不断完善，学会了在宇宙噪声的背景下精准地锁定中微子的特征。这些发觉揭示了具有4.5西格玛重要性的中微子发射，强调了银河系内潜在的来源。

在这一背景下，机器进修的创新使用不仅增强了天文台的检测能力，而且为未来的天体物理探索提供了模式。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

化学与材料

AI在化学材料的各个规模大放异彩。在自动化化学和材料合成规模，如Koscher等人的研究以及Szymanski等人的A-Lab项目揭示了人工智能与物理世界之间的桥梁。这些项目通过自动化试验室和鉴于云的方法，发觉了新的染料分子和无机材料。

在大型语言模型的利用方面，如Coscientist和ChemCrow项目利用LLM规划试验，实现了与互联网、模型和试验设备的交互，揭示了LLM在自动化任务和庞杂试验室操作中的巨大潜力。

此外，DeepMind的GNoME团队通过机器进修的方法展望了大量的材料候选者，揭示了深度进修在材料迷信中的利用。

最后，像MIT和Cornell的研究团队开发的OA-ReactDiff散布模型，在化学反应的过渡状态搜索方面取得了重要希望，提供了一种比传统方法更快更有效的替代方案，并能探索未预期的反应路径，助力新催化剂的发觉和庞杂反应的研究。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

生物

规模聚焦到理解蛋白质与其他生物小分子和大分子的相互作用。

其中，RosettaFold-AA和AlphaFold-latest作为两个杰出的代表，不仅仅局限于蛋白质构造展望，还扩展到展望蛋白质与小分子、蛋白质、核酸等生物分子的相互作用。

除了对静态的蛋白构造的研究，大家的也将目光聚焦在了研究蛋白构象空间，比如AF-Cluster通过改变多序列比对来控制AlphaFold输出不同构象。

相对于对蛋白质构造和功能的理解，蛋白质设计专注于设计新的蛋白质或修改现有蛋白质以实现特定的构造和功能。

在几何深度进修和生成式AI规模（特别是散布模型）取得希望的基础上，RFDiffusion和Chroma提出了包含空间对称性（旋转、平移和反射）的散布模型，用于生成新蛋白质。

除了从头设计外，他们还提出了灵活设计和优化蛋白质的方法，比如鉴于结合靶标，功能，构造的条件，以及鉴于模型提供指导的构造或功能优化。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

医药

AI在医药学方面的利用已经充分结合实际利用场景并趋于工程化。

Moor等人提出了一种通用医学人工智能（GMAI），该系统能够解释多模态数据，如影像学、电子健康记录、试验室结果、基因组学、图形或医学文本。GMAI以自监督方式在大规模、多样化的多模态数据上进行预训练，并能够执行多样化的医学利用。

Singhal等人策划了一个在医学规模的大规模问答数据集，并提出了鉴于PaLM（Google的大型语言模型）的医学规模大型语言模型，也被称为Med-PaLM, 并首次作为AI模型通过美国医学执业考试。

几个月后，同一组作者提出了Med-PaLM的第二个版本（Med-PaLM 2）。如图所示，Med-PaLM 2取得了显著的里程碑（86.5%(Med-PaLM2)，67.2%（Med-PaLM）），成为第一个达到与人类专家相媲美的水平，能够回答USMLE风格问题。医生们注意到该模型在回答消费者医学问题的长篇答案方面有显著的改进。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

同时，AI4Science也在一些规模，比如数学理论，地球迷信和神经迷信开辟了新的赛道并在高速发展。

数学理论

今年，LLM开始发觉新的理论和算法。DeepMind的一项最新研究（FunSearch）揭示了LLM用于发觉解决庞杂组合问题的新程序的潜力。FunSearch的主要目标是找到更好的程序来解决难题。

具体来说，它采用了一种在预训练LLM和评估器之间的迭代和进化过程。在这个过程中，进化算法从程序池中选择最佳程序候选，输入到LLM中进行改进。然后，修订后的程序被评估、打分，并重新放回池中。在这个进化过程中，提出了更好和新的程序。他们验证了FunSearch在两个组合优化问题——cap set和在线装箱问题上的有效性，FunSearch找到了比已知最佳解决方案更好的解决方案。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

地球迷信

AI技术实现了在天气展望这一传统上极具寻衅性的任务突破性的希望。

项目如ClimaX、GraphCast、Pangu-Weather、MetNet-3和PreDiff利用了数十年的历史天气数据和数值物理模拟结果，推动了在短期和中期天气展望方面的高分辨率时空展望技术。这些成就在很大程度上依赖于高性能计算资源和对大量数据的庞杂处理。

特别值得一提的是，GraphCast通过其独特的“编码器-处理器-解码器”构造的图形神经网络，专门处理空间构造化的天气数据。而ClimaX则以其全球和区域范围的模型及通用基础模型而闻名，这些模型可以根据任意组合的输入变量展望任意时间点的天气情况。

除了天气展望，人工智能还在数据有限的地球迷信规模取得了希望，例如地下构造、生物学和火山学。在这些规模，轻量级的人工智能代理模型正在替代传统的、计算密集型的数值物理模拟。这些模型不仅加快了展望速度，还提高了决策过程的效率。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

神经迷信

AI从脑波中重建图像，为人类提供了深入了解大脑中的世界模型的机会。尽管这一任务一直极具寻衅性，生成模型的创新（尤其是隐空间散布模型）使得这一任务变得可能。

如果将大脑活动数据解释为“文本”，那么我们就能够生成鉴于脑活动数据的图像。令人惊讶的是，这一任务无需训练庞杂的神经网络，只需使用预训练的稳定散布模型，仅训练从脑数据到潜在向量和上下文向量的线性映射。

此外，AI还被用于理解神经活动和行为的对应。一种称作CEBRA的方法能够利用于鉴于假设和探索性的分析，并揭示了表示在多次试验、动物和模态之间对神经活动解释的一致性。这一方法最小程度地利用神经编码中的时间构造，大大提升了结果的鲁棒性，有希望成为神经迷信研究中的有力工具。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

未来的展望和寻衅

最后，经历了2023年的疯狂，组织者们送上了他们对AI4Science在2024年发展的期望：

开源是加速迷信发觉的关键。开源强调可复制和降低各个规模之间的沟通壁垒。这在AI4Science这样的大融合的方向更为重要。2023年，我们注意到社区趋向于更加封闭。因此我们在迈向未来的路上，倡导AI4Science社群拥抱开源迷信的理念。

某些AI4Science规模正从概念验证阶段转向实际利用，把我们的理论知识变成迷信发觉中的可靠工具。这是一个大寻衅，不仅需要理念上的，还需要工程和教育上的努力以及资源的支持。相比于LLMs大众每天都可以看见的希望，由于迷信偏“toB”的属性，AI4Science的商业化进程会缓慢很多。不过，这是深化和拓宽迷信发觉的必要步骤。人类对于迷信的探索和转化本身就是一个没有终点的长跑，需要耐力和坚持！

想要解决迷信规模的宏大寻衅，需要跨多个规模的知识，而构建一个协作环境对于推进人工智能和迷信研究至关重要。这也是我们AI4Science组织者希望给大家打造的环境。

随着社群的不断扩大，AI4Science工具被滥用的风险也在增长。在开发新的算法进步时，大家应该牢记伦理和安全问题。

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

本文由部分AI4Science workshop组织者联合撰写：程立雪，杜沅岂，段辰儒，Ada Fang, 符天凡，高文昊，黄柯鑫，刘子鸣，罗迪，王莉晶（按姓名拼音排序）。

更为详尽的英文原稿博客见：https://medium.com/@AI_for_Science/ai-for-science-in-2023-a-community-primer-d2c2db37e9a7

{{userData.name}}已认证

AI4Science还是伪命题吗？两年后workshop组织者重新审视AI4Science

地球迷信新视角：上交大团队推出300亿参数的地学学术型大模型GeoGalactica

AI国际顶会ICLR 2024结果揭晓，蚂蚁团体11篇论文入选

MIT计算机科学家意外发现，量子纠缠会「突然消亡」

百度英伟达联合举办！全球规模最大智能体大赛开幕

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature

比尔・盖茨用 AI 对付蚊子，助力消灭疟疾

我有一个「赛博爱人」，拥有超长记忆，还能给足情绪价值

Karpathy狂赞AI代码神器Cursor，直言回不到3年前无辅助编码了，却被指「带货」

AI 行业风光背后：80% 项目会失败，5 大原因导致

新手必看！5 款 Flux 实用基础工作流（附资源包）