复旦团队提出Transformer生成的原子嵌入策略,可通过ML提高晶体特性的预测准确性

编辑 | 白菜叶近年来,在化学分子性质与结构预测领域出现了大量基于 Transformer 的训练方法和预测模型,例如 OrbNet、3D-Transformer 等。 科学家们认为这些方法和模型,能够充分发挥 Transformer 架构在处理原子相互作用和捕捉三维结构方面的优势,从而高效地表示原子间复杂的相互作用。 在这些进步的推动下,复旦大学的研究人员开发了自制的 CrystalTransformer 模型,基于 Transformer 架构生成称为 ct-UAE 的通用原子嵌入,该模型为每个原子学习独特的「指纹」,捕捉它们在材料中的功能和相互作用的本质。

图片

编辑 | 白菜叶

近年来,在化学分子性质与结构预测领域出现了大量基于 Transformer 的训练方法和预测模型,例如 OrbNet、3D-Transformer 等。

科学家们认为这些方法和模型,能够充分发挥 Transformer 架构在处理原子相互作用和捕捉三维结构方面的优势,从而高效地表示原子间复杂的相互作用。

在这些进步的推动下,复旦大学的研究人员开发了自制的 CrystalTransformer 模型,基于 Transformer 架构生成称为 ct-UAE 的通用原子嵌入,该模型为每个原子学习独特的「指纹」,捕捉它们在材料中的功能和相互作用的本质。

然后将得到的嵌入转移到不同的深度学习模型中。使用均匀流形近似和投影(UMAP)聚类方法,研究人员将原子分为不同的组,分析嵌入与真实原子之间的联系。

该研究以「Transformer-generated atomic embeddings to enhance prediction accuracy of crystal properties with machine learning」为题,于 2025 年 1 月 31 日发布在《Nature Communications》。

图片

通过机器学习加速新型晶体材料的发现,对于推动从清洁能源到信息处理等各种技术的发展至关重要。用于预测材料特性的机器学习模型需要嵌入原子信息,而传统方法在提高预测精度方面效果有限。

研究人员提出了一种称为通用原子嵌入(UAE)的原子嵌入策略,因为它们作为原子指纹具有广泛的适用性,并基于提出的 CrystalTransformer 模型生成 UAE 张量。

图片

图示:模型的工作流程包括前端和后端部分,用于预测原子嵌入的属性和不同的工作原理。(来源:论文)

通过在广泛使用的材料数据库上进行实验,该团队基于 CrystalTransformer 的 UAE(ct-UAE)被证明能够准确捕捉复杂的原子特征,基于材料项目数据库,当使用形成能作为目标时,CGCNN 的预测准确度提高了 14%,ALIGNN 的预测准确度提高了 18%。

图片

图示:CrystalTransformer 模型架构。(来源:论文)

研究人员还证明了 ct-UAE 在各种数据库中具有良好的可移植性。基于多任务 ct-UAE 的聚类分析,可以对元素周期表中的元素进行分类,并在原子特征和目标晶体特性之间建立合理的联系。

图片

图示:使用经过不同任务训练的 ct-UAE 进行钙钛矿特性预测的流程图和结果比较。(来源:论文)

在应用 ct-UAE 预测混合钙钛矿数据库中的形成能后,该团队实现了准确度的提高,MEGNET 提高了 34%,CGCNN 提高了 16%,展示了它们作为原子指纹解决数据稀缺挑战的潜力。

论文链接:https://www.nature.com/articles/s41467-025-56481-x

相关资讯

AI再夺诺奖!2024诺贝尔化学奖授予蛋白质计算领域三位科学家

编辑 | ScienceAI2024 年 10 月 9 日北京时间 17 时 45 分许,瑞典皇家科学院在斯德哥尔摩宣布,将 2024 年诺贝尔化学奖的一半授予华盛顿大学教授大卫·贝克(David Baker),以表彰他在「计算蛋白质设计」方面的贡献,并将另一半授予Google DeepMind 的科学家戴密斯·哈萨比斯(Demis Hassabis)和约翰·M·詹伯(John M. Jumper),以表彰他们在「蛋白质结构预测」方面的贡献。大卫·贝克(David Baker)华盛顿大学蛋白质设计研究所所长,霍华德

南开&山大&北理工团队开发trRosettaRNA:利用Transformer网络自动预测RNA 3D结构

编辑 | 萝卜皮RNA 3D 结构预测是一个长期存在的挑战。受最近蛋白质结构预测领域突破的启发,南开大学、山东大学以及北京理工大学的研究团队开发了 trRosettaRNA,这是一种基于深度学习的自动化 RNA 3D 结构预测方法。trRosettaRNA 流程包括两个主要步骤:通过transformer网络进行 1D 和 2D 几何形状预测;以及通过能量最小化进行的 3D 结构折叠。基准测试表明 trRosettaRNA 优于传统的自动化方法。在 CASP15 和 RNA-Puzzles 实验的盲测中,对天然 R

Nat. Commun.|人类水平的准确性,哈佛医学院团队使用机器学习,从空间蛋白质组数据中快速、精确地识别细胞类型

编辑 | 萝卜皮高度多重蛋白质成像正在成为分析细胞和组织内天然环境中蛋白质分布的有效技术。然而,现有的利用高复杂空间蛋白质组学数据的细胞注释方法是资源密集型的,并且需要迭代的专家输入,从而限制了它们对于广泛数据集的可扩展性和实用性。哈佛医学院(Harvard Medical School)团队引入了 MAPS(Machine learning for Analysis of Proteomics in Spatial biology),这是一种机器学习方法,有助于从空间蛋白质组数据中快速、精确地识别细胞类型,并具有