编辑 | X
近年来,自然言语处理(NLP)模型,特别是 Transformer 模型,已应用于像 SMILES 这样的份子布局的文字表示。然而,关于这些模型如何懂得化学布局的研讨很少。
为了解决这个黑匣子,东京大学的研讨职员运用代表性的 NLP 模型 Transformer 研讨了 SMILES 的进修进度与化学布局之间的关系。研讨解释,虽然 Transformer 可以快速进修份子的部份布局,但它需要扩展训练才能懂得团体布局。
一致的是,从训练开始到结束,运用差别进修方法的模型生成的描述符进行份子特性猜测的准确性是相似的。此外,发觉 Transformer 需要特别长时间的训练来进修手性,并且有时会因对映体的误解而阻滞不前,功能低下。这些发觉有望加深对化学领域 NLP 模型的懂得。
该研讨以「Difficulty in chirality recognition for Transformer architectures learning chemical structures from string representations」为题,于 2024 年 2 月 16 日发布在《Nature Communications》上。
论文链接:https://www.nature.com/articles/s41467-024-45102-8
机器进修的最新进展影响了化学领域的各种研讨,例如份子性子猜测、能量计算和布局生成。
要在化学中利用机器进修方法,我们首先需要让计算机辨别化学布局。最流行的方法之一是运用化学言语模型,这是一种自然言语处理 (NLP) 模型,其中包含表示化学布局的字符串,例如 SMILES。
很少有人研讨化学言语模型如何懂得极其多样化的份子布局,以及如何将化学布局和描述符联系起来。
在此,东京大学的研讨职员通过比较模型及其描述符在训练的各个方法中的功能来解决这个黑匣子,这阐明了哪些类型的份子特征可以轻松地纳入描述符中,哪些类型则不能。特别是,专注于最流行的 NLP 模型 Transformer,这是当今用于描述符生成和其他化学言语恣意的良好利用的架构。
具体来说,研讨职员训练一个 Transformer 模型来翻译 SMILES 字符串,然后比较差别训练方法中猜测与目标之间份子指纹的完美一致性和相似性。还利用模型在训练的差别方法生成的描述符进行了 6 个份子性子猜测恣意,并研讨了哪些类型的恣意容易解决。
研讨进一步发觉,Transformer 的翻译准确率有时会在较低水平上阻滞一段时间,然后突然飙升。为了弄清楚其原因,研讨职员比较了 SMILES 每个字符的翻译准确性。最后,寻找并找到了防止阻滞和稳定进修的方法。
主要研讨结果如下:
1、为了了解 Transformer 模型如何进修差别的化学布局,研讨职员首先通过比较差别训练方法的模型来研讨进修过程与模型功能之间的关系。在 Transformer 模型中,在训练的早期阶段就可以辨别份子的部份布局,而辨别团体布局则需要更多的训练。结合之前关于 RNN 模型的研讨,这一发觉可以推广到运用 SMILES 字符串的各种 NLP 模型。因此,使 Transformer 模型能够将团体布局信息作为其布局中的辅助恣意来引用,将有助于改进描述符生成模型。
图 1:进修过程中 Transformer 的部份/团体布局辨别。(泉源:论文)
2、对于份子性子猜测,Transformer 模型生成的描述符的功能在训练之前可能已经饱和,并且在后续的训练中没有得到改善。这解释初始模型的描述符已经包含了足够的下游恣意信息,这可能是份子的部份布局。另一方面,也有可能下游恣意,如份子的性子猜测,对于 Transformer 来说太容易了,不适合评估基于 Transformer 的描述符生成方法。
图 2:描述符在份子性子猜测中的功能。(泉源:论文)
3、与其他因素(例如团体布局或其他部份布局)相比,Transformer 在手性方面的翻译功能提升相对较慢,并且模型有时会长时间对手性产生混淆,导致团体布局辨别持续阻滞。这解释,向模型「教授」手性的额外布局或恣意可以改善模型及其描述符的功能。
图 3:差别初始权重下完美精度的阻滞。(泉源:论文)
图 4:Transformer 的手性进修困难。(泉源:论文)
4、引入pre-LN 布局可以加速并稳定进修,包括手性。
图 5:通过引入 pre-LN 改善阻滞和手性辨别。(泉源:论文)
最后,为了阐明关于 Transformer 的研讨结果的普遍性,研讨职员运用另一种份子表达来训练模型。运用 InChI 代替 SMILES,这是一些化学言语模型化学信息学研讨中采用的份子的替代文字表示。
图 6:通过 InChI-to-SMILES 翻译训练的 Transformer 模型的实验。(泉源:论文)
结果显示,与完全精度和损失函数相比,部份精度和指纹相似度早期饱和,解释在 InChI 到 SMILES 翻译中,部份布局的辨别比团体布局更容易。下游恣意的功能并没有通过训练得到改善。
结果还解释,InChI 到 SMILES 的翻译确实出现了阻滞,区分对映体的混乱导致了阻滞。此外,pre-LN 的引入缓解了阻滞现象。
这些发觉有助于澄清化学言语模型中的黑箱,并有望激活这一领域。研讨这些发觉是否适用于具有监督性子的其他应用(例如布局生成和端到端属性猜测)的化学言语模型是一项有趣的未来恣意。
由于 NLP 是深度进修中最先进的领域之一,化学言语模型将得到越来越多的发展。另一方面,与化学领域流行的神经网络模型(如图神经网络)相比,言语模型与化学布局之间的关系存在许多未知因素。
对 NLP 模型与化学布局之间关系的进一步基础研讨,有望进一步澄清 NLP 模型如何进化和辨别化学布局的黑盒子,从而促进化学中各种恣意的化学言语模型的发展和功能的提高。