编辑 | 绿萝
许多人担心 AI 已经走得太远,或者有走得太远的风险。具有「AI 教父」之称的杰弗里·辛顿(Geoffrey Hinton)最近辞去了谷歌副总裁的职务,理由是希望不受约束地公开谈论 AI 对社会和人类福祉的潜在风险。
但是,与这些大局的担忧相反,在许多科学领域,你会听到一种不同的沮丧情绪在悄悄地表达:AI 还没有走得充足远。其中一个领域是化学,机器学习东西有望在研讨职员寻找和合成有用的新物质的方式上掀起一场革命。但大规模革命尚未发生——因为缺乏可用于「投喂」人工智能零碎的数据。
任何 AI 零碎的好坏取决于它所训练的数据。这些零碎依赖于所谓的神经网络,它们的开发职员运用必须庞大、可靠且无偏见的训练数据集来教授神经网络。
如果化学家想要充分利用生成式 AI 东西的全部潜力,他们须要帮助建立此类训练数据集。须要更多数据——包括实验数据和模拟数据——包括历史数据和其他模糊的知识,例如来自不成功实验的数据。研讨职员必须确保由此产生的信息是可造访的。这项任务仍在进行中。
举个例子,人工智能东西可以进行逆合成。他们从化学家想要创造的化学布局开始,然后逆向工作,以确定最佳的起始质料和创造它的反馈步骤顺序。采用这类要领的人工智能零碎包括 3N-MCTS,由德国明斯特大学(University of Münster)和中国上海大学的研讨职员设想。它将已知的搜索算法与三个神经网络相结合。这些东西已经引起了人们的注意,但很少有化学家采用它们。
MCTS 要领示意图。(来源:Nature)
为了做出准确的化学预测,人工智能零碎须要充分了解不同反馈所涉及的特定化学布局。发现新反馈的化学家通常会发表研讨结果,但通常这些结果并不详尽。除非 AI 零碎具有全面的知识,否则它们最终可能会建议起始质料的布局会停止反馈工作或导致不正确的产品。
混合进步的一个例子是人工智能研讨职员称之为「逆向设想」。在化学中,这涉及从所需的物理特点开始,然后确定具有这些特点的物质,并且理想情况下可以廉价创造。例如,基于人工智能的逆向设想帮助科学家选择了创造蓝色磷光有机发光二极管的最佳质料。
逆向设想的计算要领,要求模型建议具有所需特征的布局,已经在化学中运用,研讨职员经常审查它们的输出。如果人工智能要在逆向设想中胜过现有的计算东西,它须要充足的训练数据将化学布局与特点联系起来。但在这类情况下,「充足」的训练数据的含义取决于所运用的人工智能类型。
由加利福尼亚州旧金山的 OpenAI 开发的 ChatGPT 等通才生成式 AI 零碎非常须要数据。要将这类生成式 AI 零碎应用于化学,须要数十万甚至数百万个数据点。
一种更注重化学的人工智能要领是根据分子的布局和性质来训练零碎。在 AI 的语言中,分子布局是图形。在分子中,化学键连接原子——就像边连接图中的节点一样。这类具有 5,000-10,000 个数据点的人工智能零碎已经可以击败传统的计算要领来回答化学问题。问题是,在许多情况下,即使 5,000 个数据点也远远超过当前可用的数量。
AlphaFold 蛋白质布局预测东西,可以说是最成功的化学 AI 应用程序,运用了这类图形表示要领。AlphaFold 的创建者在一个强大的数据集上对其进行了训练:成立于 1971 年的蛋白质数据库(Protein data Bank)中的信息,旨在整理不断增长的实验确定的蛋白质布局集,目前包含超过 200,000 个布局。AlphaFold 提供了一个很好的例子,说明在提供充足的高质量数据时,AI 零碎可以具有的强大功能。
那么其他人工智能零碎如何创建或造访更多更好的化学数据呢?一种可能的解决方案是建立从已发表的研讨论文和现有数据库中提取数据的零碎,例如英国剑桥大学的研讨职员创建的一种算法 OPSIN,该算法将化学名称转换为布局。这类要领加速了 AI 在有机化学中的应用。(OPSIN 开源地址:https://opsin.ch.cam.ac.uk/)
一种开源解决方案 OPSIN:从化学名称到布局。(来源:J. Chem. Inf. Model.)
另一种加快速度的潜在要领是使实验室零碎自动化。现有选项包括机器人质料处理零碎,可以设置它来创造和测量化合物以测试 AI 模型输出。然而,目前这类能力是有限的,因为与人类化学家相比,该零碎只能进行相对狭窄范围的化学反馈。
AI 开发职员可以运用真实数据和模拟数据来训练他们的模型。剑桥麻省理工学院的研讨职员运用这类要领创建了一个基于图的模型,可以预测分子的光学特点,例如它们的颜色。
还有一个特别明显的解决方案:人工智能东西须要开放数据。人们发表论文的方式必须不断发展,使数据更易于造访。这就是 Nature 要求作者将他们的代码和数据存放在开放存储库中的原因之一。这也是关注数据可造访性的另一个原因,超越了围绕结果复制和高调撤回的科学危机。化学家们已经在运用开放式反馈数据库等设施解决这个问题。
但即便如此,也可能不足以让人工智能东西发挥其全部潜力。最好的训练集还应包括负面结果的数据,例如不产生所需物质的反馈条件。数据须要以商定和一致的格式记录,而目前还没有。
化学应用要求计算机模型比最好的人类科学家更好。只有采取措施收集和共享数据,人工智能才能满足化学方面的期望。
参考内容:https://www.nature.com/articles/d41586-023-01612-x