编辑/绿萝
大规模从头估计与布局预计的进步相结合,在有机功能资料的发觉中发挥了重要作用。目前,在有机资料的广阔化学空间中,只发觉了一小部分。实验和估计研讨职员都需要加速探索未知的化学空间。
来自美国国家可再生能源实验室(NREL)、科罗拉多矿业学院和伊利诺伊大学的研讨职员展示了一种可以正确预计有机化合物性质的呆板进修方法。展示了基态(GS)和更高能量布局的平衡训练数据集,对使用通用图神经网络(GNN)架构正确预计总能量的重要性。该研讨可加速静态电池的设计。
该研讨以「Predicting energy and stability of known and hypothetical crystals using graph neural network」为题,发表在《Patterns》杂志上。
晶体内部布局中的原子有规则地在三维空间呈周期性重复排列。测量这些晶体布局波动性的一种方法是估计它们的总能量——较低的总能量转化为较高的波动性。单一化合物可以具有许多不同的晶体布局。为了找到能量最低的布局:基态布局。研讨职员依赖于估计成本高昂的高保真数值模拟。
如果在电极和电解质之间的界面形成竞争相,静态电池会失去容量和电压。寻找相容的资料,确保资料不会分解。但候选的领域很广:估计表明有数百万甚至数十亿种似是而非的静态化合物等待被发觉。
「你无法对这个潜在晶体布局空间的大片区域进行这些非常详细的模拟。」NREL 研讨员 Peter St. John说。「每一个都是非常密集的估计,在大型估计机上需要几分钟到几小时。」 然后,人类必须梳理所得数据,以手动识别新的预期资料。
为了加速这一过程,研讨职员使用了一种称为图神经网络的呆板进修形式。图神经网络是一种经过训练可以检测和突出显示数据模式的算法。在这里,「图」本质上是每一个晶体布局的图。该算法分析每一个晶体布局,然后预计其总能量。
对于基准测试,研讨职员在来自 NREL 资料数据库 (NRELMatDB) 的 ICSD(有机晶体布局数据库) 布局的 DFT 总能量上训练 CGCNN 模型。该模型在 15,500 个晶体布局上进行了训练,每一个布局都保留了 其中 500 个用于验证和测试。
GNN 模型架构。
然而,任何神经网络的成功都取决于其用来进修的数据。科学家们已经确定了超过 200,000 种有机晶体布局,但还有很多的可能性。一些晶体布局起初看起来很波动——直到与较低能量的化合物进行比较才会发觉并非如此。研讨职员提出了假设的、更高能量的晶体,可以帮助呆板进修模型提高分辨看似波动的布局和实际波动布局的能力。
「要训练一个能够正确预计布局是否波动的模型,你不能只给它提供我们已经知道的基态布局。你必须给它这些假设的高能布局,这样模型才能区分这两者,」St. John说。
为了训练他们的图神经网络,研讨职员创建了基于量子力学估计而不是自然的理论示例。通过在训练数据中同时包含基态和高能晶体,与仅在基态布局上训练的模型相比,研讨职员能够获得更正确的结果。研讨职员模型的平均误差比对比案例低五倍。
具体而言,研讨职员使用 Kendall 等级相关系数 (KRCC) 作为度量来比较不同模型和数据集之间预计能量等级的正确性。
当在相同的组合数据集上训练时,GNN 模型、MEGNet 和 CGCNN 模型具有相似的平均 KRCC。与仅在 ICSD 布局上训练相同模型相比,这是 KRCC 的显着改进。因此,训练数据的选择起着更关键的作用,而实际模型架构对模型在布局能量排名中的性能影响较小。
不同数据集和模型的能源排名比较。
这种方法可以彻底改变研讨职员发觉具有宝贵特性的新资料的速度,使他们能够快速地发觉最有前途的晶体布局。科罗拉多矿业学院的研讨教授 Gorai 说,这项工作具有广泛的相关性。
「两种固体相互接触的情况发生在许多不同的应用中——光伏、热电、各种功能设备。」Gorai 说。「一旦该模型成功,它就可以部署在静态电池之外的许多应用中。」
论文链接:https://doi.org/10.1016/j.patter.2021.100361
参考内容:https://techxplore.com/news/2021-12-machine-method-battery-materials.html