解开化学言语模型中的「黑匣子」，Transformer可快速进修份子的部份布局，但手性进修困难

编辑 | X近年来，自然言语处理（NLP）模型，特别是 Transformer 模型，已应用于像 SMILES 这样的份子布局的文字表示。然而，关于这些模型如何懂得化学布局的研讨很少。为了解决这个黑匣子，东京大学的研讨职员运用代表性的 NLP 模型 Transformer 研讨了 SMILES 的进修进度与化学布局之间的关系。研讨解释，虽然 Transformer 可以快速进修份子的部份布局，但它需要扩展训练才能懂得团体布局。一致的是，从训练开始到结束，运用差别进修方法的模型生成的描述符进行份子特性猜测的准确性是相

编辑 | X

近年来，自然言语处理（NLP）模型，特别是 Transformer 模型，已应用于像 SMILES 这样的份子布局的文字表示。然而，关于这些模型如何懂得化学布局的研讨很少。

为了解决这个黑匣子，东京大学的研讨职员运用代表性的 NLP 模型 Transformer 研讨了 SMILES 的进修进度与化学布局之间的关系。研讨解释，虽然 Transformer 可以快速进修份子的部份布局，但它需要扩展训练才能懂得团体布局。

一致的是，从训练开始到结束，运用差别进修方法的模型生成的描述符进行份子特性猜测的准确性是相似的。此外，发觉 Transformer 需要特别长时间的训练来进修手性，并且有时会因对映体的误解而阻滞不前，功能低下。这些发觉有望加深对化学领域 NLP 模型的懂得。

该研讨以「Difficulty in chirality recognition for Transformer architectures learning chemical structures from string representations」为题，于 2024 年 2 月 16 日发布在《Nature Communications》上。

解开化学言语模型中的「黑匣子」，Transformer可快速进修份子的部份布局，但手性进修困难

论文链接：https://www.nature.com/articles/s41467-024-45102-8

机器进修的最新进展影响了化学领域的各种研讨，例如份子性子猜测、能量计算和布局生成。

要在化学中利用机器进修方法，我们首先需要让计算机辨别化学布局。最流行的方法之一是运用化学言语模型，这是一种自然言语处理 (NLP) 模型，其中包含表示化学布局的字符串，例如 SMILES。

很少有人研讨化学言语模型如何懂得极其多样化的份子布局，以及如何将化学布局和描述符联系起来。

在此，东京大学的研讨职员通过比较模型及其描述符在训练的各个方法中的功能来解决这个黑匣子，这阐明了哪些类型的份子特征可以轻松地纳入描述符中，哪些类型则不能。特别是，专注于最流行的 NLP 模型 Transformer，这是当今用于描述符生成和其他化学言语恣意的良好利用的架构。

具体来说，研讨职员训练一个 Transformer 模型来翻译 SMILES 字符串，然后比较差别训练方法中猜测与目标之间份子指纹的完美一致性和相似性。还利用模型在训练的差别方法生成的描述符进行了 6 个份子性子猜测恣意，并研讨了哪些类型的恣意容易解决。

研讨进一步发觉，Transformer 的翻译准确率有时会在较低水平上阻滞一段时间，然后突然飙升。为了弄清楚其原因，研讨职员比较了 SMILES 每个字符的翻译准确性。最后，寻找并找到了防止阻滞和稳定进修的方法。

主要研讨结果如下:

1、为了了解 Transformer 模型如何进修差别的化学布局，研讨职员首先通过比较差别训练方法的模型来研讨进修过程与模型功能之间的关系。在 Transformer 模型中，在训练的早期阶段就可以辨别份子的部份布局，而辨别团体布局则需要更多的训练。结合之前关于 RNN 模型的研讨，这一发觉可以推广到运用 SMILES 字符串的各种 NLP 模型。因此，使 Transformer 模型能够将团体布局信息作为其布局中的辅助恣意来引用，将有助于改进描述符生成模型。

解开化学言语模型中的「黑匣子」，Transformer可快速进修份子的部份布局，但手性进修困难

图 1：进修过程中 Transformer 的部份/团体布局辨别。（泉源：论文）

2、对于份子性子猜测，Transformer 模型生成的描述符的功能在训练之前可能已经饱和，并且在后续的训练中没有得到改善。这解释初始模型的描述符已经包含了足够的下游恣意信息，这可能是份子的部份布局。另一方面，也有可能下游恣意，如份子的性子猜测，对于 Transformer 来说太容易了，不适合评估基于 Transformer 的描述符生成方法。

解开化学言语模型中的「黑匣子」，Transformer可快速进修份子的部份布局，但手性进修困难