Nature重磅:微软生成式AI材料设计工具,稳定性提升2倍,实验验证误差低于20%!

编辑 | 2049材料创新是推动技术进步的关键驱动力之一。 从 20 世纪 80 年代锂钴氧化物的发现到如今的锂离子电池技术,材料科学的每一次突破都深刻影响着我们的日常生活。 然而,传统的材料发现方法依赖于耗时且昂贵的实验试错过程,而计算筛选方法虽然加速了这一过程,但仍然受限于已知材料的数量。

图片

编辑 | 2049

材料创新是推动技术进步的关键驱动力之一。从 20 世纪 80 年代锂钴氧化物的发现到如今的锂离子电池技术,材料科学的每一次突破都深刻影响着我们的日常生活。然而,传统的材料发现方法依赖于耗时且昂贵的实验试错过程,而计算筛选方法虽然加速了这一过程,但仍然受限于已知材料的数量。

为了解决这一问题,微软研究院 AI for Science 团队开发了 MatterGen,一种基于生成式 AI 的材料设计工具,能够直接根据设计需求生成新材料,从而大幅提升材料发现的效率。

该研究以「A generative model for inorganic materials design」为题,于 2025 年 1 月 16 日发布在《Nature》。

图片

研究背景

材料设计的速度直接影响着碳捕获、半导体设计和能源存储等领域的技术创新。传统方法主要依赖于实验和人类直觉,导致候选材料的测试数量有限,迭代周期长。

尽管高通量筛选(High-Throughput Screening)和机器学习力场(Machine Learning Force Fields, MLFFs)等技术的进步使得筛选数十万种材料成为可能,但这些方法仍然受限于已知材料的数量。现有的最大规模探索仅涉及数百万种材料,而这仅占潜在稳定无机化合物的一小部分。

此外,这些方法难以高效地针对特定属性进行优化。为了解决这些问题,逆向材料设计(Inverse Materials Design)应运而生,旨在直接生成满足目标属性约束的材料结构。然而,现有的生成模型在生成稳定材料、覆盖元素范围以及优化多种属性方面仍存在显著不足。

图片

图示:材料设计的筛选和生成方法的示意图。(来源:论文)

核心理念与基础理论

MatterGen 是一种基于扩散模型(Diffusion Model)的生成模型,专门用于设计跨元素周期表的晶体材料。扩散模型通过逆转固定的噪声过程生成样本,而晶体材料由于其周期性和对称性,需要定制化的扩散过程。MatterGen 通过逐步细化原子类型、坐标和周期性晶格来生成晶体结构。

具体而言,MatterGen 定义了原子类型、坐标和晶格的噪声过程,并通过学习一个得分网络(Score Network)来逆转这一过程。得分网络输出原子类型、坐标和晶格的等变得分,从而无需从数据中学习对称性。这一设计使得 MatterGen 能够生成稳定且多样的无机材料。

图片

图示:MatterGen 的示意图。(来源:论文)

具体实现方案

为了设计具有目标属性约束的材料,MatterGen 引入了适配器模块(Adapter Modules),用于在带有属性标签的数据集上微调得分模型。适配器模块是可调组件,能够根据给定的属性标签改变模型的输出。微调后的模型结合无分类器引导(Classifier-Free Guidance)技术,能够生成满足目标化学组成、对称性或标量属性(如磁密度)约束的材料。

MatterGen 的广泛条件生成能力使其能够解决多种逆向设计问题。例如,MatterGen 能够生成具有目标化学组成、对称性或机械、电子和磁属性的稳定新材料。

图片

图示:MatterGen 和其他方法在生成稳定、独特和新颖结构方面的性能。(来源:论文)

实验设计与结果分析

为了验证 MatterGen 的性能,研究团队进行了多项实验。

首先,生成的晶体结构在密度泛函理论(DFT)计算中表现出较高的稳定性,78% 的结构能量低于 0.1 eV/atom 的阈值。此外,生成结构与 DFT 松弛结构的均方根偏差(RMSD)低于 0.076 Å,表明这些结构非常接近 DFT 局部能量最小值。在多样性和新颖性方面,MatterGen 生成的结构中有 61% 是新颖的,且在大规模生成时仍能保持较高的多样性。

与现有生成模型相比,MatterGen 生成的稳定、独特且新颖(S.U.N.)材料的比例提高了两倍以上,且生成的结构更接近其局部能量最小值。

为了验证 MatterGen 的实际应用效果,研究团队与深圳先进技术研究院合作,成功合成了 MatterGen 生成的 TaCr2O6 材料。

实验结果表明,合成材料的结构与生成的结构高度一致,且其体积模量的实验测量值为 169 GPa,与设计目标 200 GPa 的相对误差低于 20%。这一结果验证了 MatterGen 的生成能力及其在实际应用中的潜力。

此外,MatterGen 在处理成分无序(compositional disorder)方面也表现出色,通过新的结构匹配算法,能够识别具有相同成分无序结构的不同材料,从而提高了生成的准确性和新颖性。

图片

图示:拟议化合物 TaCr2O6 的实验验证 。(来源:论文)

结语

MatterGen 的提出标志着材料设计领域的一次重大突破。通过引入定制化的扩散过程和适配器模块,MatterGen 能够生成稳定、多样且满足多种属性约束的无机材料。实验结果表明,MatterGen 在生成稳定性和多样性方面显著优于现有方法,并且能够通过微调满足广泛的属性约束。

然而,MatterGen 仍存在一些局限性,例如在生成较大晶体时倾向于生成对称性较低的结构。未来的研究可以进一步优化去噪过程、扩展训练数据集,并探索更广泛的材料类别,如催化剂表面和金属有机框架。随着生成模型在图像生成和蛋白质设计等领域的成功应用,MatterGen 有望在未来几年内彻底改变材料设计的方式。

论文链接:https://www.nature.com/articles/s41586-025-08628-5

相关报道:https://www.microsoft.com/en-us/research/blog/mattergen-a-new-paradigm-of-materials-design-with-generative-ai/

代码链接:https://www.nature.com/articles/s41586-025-08628-5

相关资讯

AI 驱动化学空间探索,大语言模型精准导航,直达目标分子

作者 | 「深度原理」陆婕妤编辑 | ScienceAI现代科学研究中,化学空间的探索是化学发现和材料科学的核心挑战之一。 过渡金属配合物(TMCs)的设计中,由金属和配体组成的庞大化学空间为多目标优化的搜索带来了难度。 为了解决这一问题,来自「深度原理」 (Deep Principle) 和康奈尔大学的研究者们开发了一种名为 LLM-EO(Large Language Model for Evolutionary Optimization)的新型工作流程算法,释放大型语言模型(LLM)的生成和预测潜能,显著提高了化学空间探索的效率。

ScienceAI 2024「AI+材料&化学」专题年度回顾

编辑 | 2049在数字化转型的背景下,人工智能技术正在从根本上改变化学与材料科学的研究范式。 2024年,这场技术革新在多个领域展现其变革力量。 在分子设计领域,基于图神经网络(GNN)和 Transformer 架构的深度学习模型,结合分子动力学模拟,实现了分子性质的精确预测与优化。

LLM学习原子「结构语言」,生成未知化合物的晶体结构,登Nature子刊

编辑 | 萝卜皮生成合理的晶体结构通常是预测材料化学成分及其性质的第一步,但当前大多数预测方法计算成本高,制约了创新进程。 通过使用优质生成的候选结构来预测晶体结构,可以突破这一瓶颈。 在最新的研究中,英国雷丁大学(University of Reading)的研究人员介绍了 CrystaLLM,这是一种基于晶体学信息文件 (CIF) 格式的自回归大型语言建模 (LLM) 的多功能晶体结构生成方法。