题图来源:AI生成
编辑 | 白菜叶
在广阔的化学空间中优化分子设计面临着独特的挑战,尤其是在领域转移的情况下保持预测准确性。
在最新的研究中,台湾大学(National Taiwan University)的研究人员整合了不确定性量化 (UQ)、定向信息传递神经网络 (D-MPNN) 和遗传算法 (GA) 来解决这些挑战。
他们系统地评估了 UQ 增强型 D-MPNN 是否能够有效优化广泛、开放的化学空间,并确定了最有效的实施策略。
测试结果表明,使用 Tartarus 和 GuacaMol 平台的基准,通过概率改进优化 (PIO) 进行 UQ 集成,在大多数情况下可以提高优化成功率,支持更可靠地探索化学多样化区域。
在多目标任务中,PIO 被证明具有特别的优势,能够平衡相互竞争的目标,并且优于不确定性不可知论方法。这项研究为将 UQ 集成到计算辅助分子设计 (CAMD) 中提供了实用指南。
该研究以「Uncertainty quantification with graph neural networks for efficient molecular design」为题,于 2025 年 4 月 5 日发布在《Nature Communications》。
探索新型化学材料是一项关键的科学事业,有可能极大地促进经济和社会的发展。从历史上看,创新分子的发现会引起各个领域的重大突破,包括开发增强的医疗疗法、创新的化学反应催化剂和更高效的碳捕获技术。这些发现传统上是劳动密集型实验过程的结果,其特点是大量反复试验。
为应对传统实验方法的局限性,计算辅助分子设计(CAMD)已经成为一种重要解决方案。但是分子设计中有一个核心挑战:在广阔的化学空间中进行优化,保持预测准确性非常困难,尤其是在域转移的情况下。
在最新的研究中,台湾大学的研究人员通过将 GNN 与 GA 相结合进行分子优化来解决此问题,从而可以直接探索化学空间,而无需依赖预定义库或生成模型。
为了减轻与外推区域中的替代模型预测相关的错误,研究人员将 UQ 集成到 GNN 框架中。受 BO 中使用的获取函数的启发,该团队系统地研究了将 UQ 纳入 CAMD 的不同方法,包括概率改进和预期改进方法。
实验表明,概率改进优化 (PIO) 方法使用概率评估来指导优化过程,在促进使用 GNN 探索化学空间方面特别有效。鉴于实际应用通常要求分子特性满足特定的阈值而非极值,PIO 方法量化了候选分子超过预定义特性阈值的可能性,减少了对模型可靠范围之外的分子的选择,并促进了具有更优异特性的候选分子的筛选。
图示:用于 PIO 策略的工作流程和方法。(来源:论文)
评估
该研究包括使用 Tartarus 和 GuacaMol 平台对不确定性不可知和不确定性感知优化方法进行全面评估,这两个平台都是解决一系列设计挑战的开源分子设计工具。
第一个平台 Tartarus 提供了一套复杂的基准测试任务,专门用于解决材料科学、制药和化学反应领域的实际分子设计挑战。
Tartarus 利用成熟的计算化学技术 [包括力场和密度泛函理论 (DFT)] ,以高计算效率模拟复杂的分子系统。这些基准测试涵盖了广泛的应用,从优化有机光伏电池和发现新型有机发光二极管 (OLED),到设计蛋白质配体和开拓新的化学反应。这种广度使得研究人员能够在多个真实世界的模拟场景中全面评估各种分子设计算法。
第二个分子设计平台 GuacaMol 是药物发现领域公认的标杆,广泛应用于各类分子优化研究,设计任务包括上市药物的再发现、相似性评估、中间分子生成、异构体生成等。
由此,研究人员选择了适合分子属性优化的任务,包括三个单目标任务,旨在识别与特定药物相似的结构,以及四个多目标任务,重点是寻找两种药物之间的中间分子或实现多属性优化(MPO)。
图示:所涉及的分子设计任务总结。(来源:论文)
与 Tartarus 中的物理模拟不同,GuacaMol 使用 RDKit 中实现的确定性函数来计算属性值,从而消除了数据的随机性。
为了模拟现实世界中机器学习(ML)替代模型很少完美的场景,研究人员对 GuacaMol 数据集进行了下采样,以在 GA 过程中构建 ML 替代模型来进行适应度预测。在这种设置中,分子设计过程最初依赖于可能不完善的替代模型来提出分子结构,然后使用基于 RDKit 的 oracle 函数进行验证。
结果
两个平台上的基准测试结果表明,与传统的不确定性不可知论方法相比,PIO 通常会提高优化成功率。
在单目标任务中,PIO 会在人们熟知的区域和探索较少的区域之间平衡搜索,从而降低选择预测可能不可靠的候选区域的风险。这种方法与 EI 形成对比,EI 通常侧重于高方差区域,导致性能不一致。但是,值得注意的是,在所需属性与可用数据中表示的属性有很大差异的任务中,PIO 的性能可能会降低。这突出了方法论上需要进一步改进的领域。
图示:通过不同方法生成的前 100 个分子的真实属性值的比较分布。(来源:论文)
在多目标优化场景中,PIO 始终表现出优势,它比加权标量化方法更有效地平衡了相互竞争的目标,而加权标量化方法可能会以牺牲其他属性为代价而偏向特定属性的优化。通过将 UQ 直接纳入适应度函数,PIO 支持一种更平衡的方法,通常可实现多个目标的更高命中率。
这在 CAMD 中尤其重要,因为实际应用通常需要同时满足多个属性阈值。PIO 能够适应不同的目标,而不会过分强调任何单一目标,这增强了其在发现适合复杂应用的化合物方面的实用性。
总之,将 UQ 与 GNN 集成用于 CAMD 代表了一种开创性的方法,为发现新型化学材料提供了一种更可靠、更可扩展的策略。通过广泛的基准测试和验证,该研究证明了不确定性感知 GNN 算法在分子设计中的潜力,并在有机电子、生物化学和材料科学等领域具有广阔的应用前景。
论文链接:https://www.nature.com/articles/s41467-025-58503-0