编辑 | 紫罗
用有机溶剂溶解聚合物是高份子材料钻研和开发中必不可少的过程,包括塑料回收、聚合物合成、精制、涂漆和涂层等。然而,展望和理解聚合物-溶剂二元体系的相平衡或相分离是聚合物化学中尚未解决的基本问题。
日本统计数理钻研所(The Institute of Statistical Mathematics)的钻研职员利用三菱化学集团 (MCG) 的量子化学较量争论数据库,开发了一种新型呆板进修体系,用于确定任何给定聚合物与其候选溶剂的混溶性,称为 χ 参数。
该体系使科学家能够通过利用高通量量子化学较量争论整合较量争论机试验产生的大量数据,克服聚合物与溶剂混溶性试验数据无限所产生的限制。
该钻研以「Multitask Machine Learning to Predict Polymer–Solvent Miscibility Using Flory–Huggins Interaction Parameters」为题,发表在《Macromolecules》杂志上。
论文链接:https://pubs.acs.org/doi/10.1021/acs.macromol.2c02600
需要一个 χ 参数的数据集来训练模型
展望和理解聚合物溶剂溶液中的相平衡或相分离代表了聚合物科学中尚未解决的基本问题。聚合物混溶性的相行为和热力学取决于与溶剂混合的具有一定份子量分布的聚合物的份子间和份子内相互作用。
根据 Flory-Huggins 聚合物溶液理论,聚合物溶液的热力学性质,例如混溶性或溶胀平衡,可以用称为 Flory-Huggins χ 参数的聚合物-溶剂相互作用参数来表示。对于给定的 χ 参数值,聚合物-溶剂相空间可以描述为以下可控变量的函数:温度、体积分数和份子链长度。然而,通过试验测量 χ 参数在技术上困难且成本高昂。
尽管已经开发了各种模型来较量争论展望 χ 参数,但基于聚合物和溶剂溶解度参数之间的距离的经验模型是最广泛利用的。例如,汉森溶解度参数 (Hansen solubility parameter,HSP) 将给定份子的潜在溶解度表示为由色散(范德华力)、极性(偶极矩)和氢键成分组成的三维矢量。聚合物-溶剂溶解度是根据 HSP 向量之间的距离确定的。基于量子化学的 COSMO-RS 方式已应用于广泛的聚合物-溶剂体系。然而,这些原子模拟的较量争论成本很高。
近年来,随着大数据和高性能较量争论资源的可用性不断增加,呆板进修已成为实现高速展望的一种有前途的方式。然而,它需要一个 χ 参数的数据集来训练模型。在这方面,已经提出了多种技术来获得试验 χ 参数值。然而,此类技术在技术上困难且成本高。此外,每种方式的适用性都无限。这使得创立可应用于各种体系的高度通用的 χ 参数展望模型变得困难。
目前,利用呆板进修钻研聚合物混溶性方面进展甚微。尽管已有一些钻研,但已有模型的适用范围是无限的,因为训练数据在数量上是无限的。
呆板进修框架,实现高度通用和稳健的 χ 参数展望
在此,钻研职员提出了一个呆板进修框架,以实现高度通用的温度相关 χ 参数展望。
该模型将 χ 参数描述为聚合物和溶剂化学结构的函数,该模型利用了 1190 个试验观察到的 χ 参数样本,其中有 766 个独特的聚合物-溶剂对,由 46 个聚合物和 140 个溶剂组成。
与之前的钻研一样,该数据集的化学多样性无限;此外,试验 χ 参数存在偏差。
为了克服这些限制,创立了两个辅助数据集。钻研职员从 PoLyInfo 中提取了一个辅助数据集,以提供 29777 个可溶性和不溶性聚合物-溶剂对的列表。此外,利用 COSMO-RS 进行量子化学较量争论,生成了 9575 个聚合物-溶剂对的 χ 参数内部数据集。
钻研职员利用这三个数据集,进行了基于深度神经网络的多任务呆板进修,以同时进行聚合物混溶性的二元分类以及真实体系和模型体系中 χ 参数的定量展望。
图示:用于展望暴露于溶剂 s 的聚合物 p 的 Flory-Huggins χ 参数的神经网络架构。(来源:论文)
神经网络的输入变量包括聚合物-溶剂对及其化学结构以及混合温度。输出层分为三个不同的任务:试验和较量争论的 χ 参数的展望值以及指示给定聚合物-溶剂对是否可混溶的分类概率。从输入到输出的映射是利用多层神经网络建模的,保留了与汉森溶解度球(Hansen’s solubility sphere)的类比。虽然 HSP 距离是在与色散、极性和氢键相关的三种不同力的空间中定义的,但所提模型旨在通过将聚合物-溶剂化学特征嵌入到 10-40 维的潜在空间中,自主创立广义的、扩展的溶解度球。嵌入的特征及其相关维度是根据观察到的数据自主进修的。
训练后的模型表现出相当好的泛化性能。展望能力超过了利用 COSMO-RS 的展望和利用汉森溶解度球的展望器。由于聚合物溶剂种类的结构多样性不足,试验 χ 参数的数据集提供的训练样本无限。因此,在普通的单任务呆板进修范围内,训练模型的适用范围仅限于狭窄数据分布的内部或稍外部。这里表明,通过与另外两个大数据集联合进修,可以成功扩展模型的适用范围。
较量争论速度比传统量子化学较量争论快约 40 倍
在这项钻研中,钻研职员创立了一个基本模型,可以同时解决聚合物混溶性的三个密切相关的任务。
钻研职员开发的展望模型较量争论 χ 参数的速度大约是传统量子化学较量争论的 40 倍。利用该模型,可以超高速地筛选数百万数量级的候选溶剂份子。
在较量争论时间方面,在传统服务器上执行量子化学较量争论并为 47 种聚合物和 138 种溶剂创立 COSMO 文件总共花费了 4129 秒。此外,从 COSMO 文件中较量争论 1190 对的 χ 参数需要 732 秒。因此,每个聚合物-溶剂对需要 (4129 + 732)/1190 ≃ 4.1 s。这比神经网络的执行时间慢了近 40 倍,神经网络的执行时间约为每个聚合物-溶剂对 0.11 秒,包括描述符较量争论。
图示:通过 (a) 利用 COSMO-RS 方式进行量子化学较量争论和 (b) HSP 距离展望器来展望试验 χ 参数。(来源:论文)
到目前为止,该模型已被证明是准确的,当它涉及到需要什么来使聚合物和溶剂成为一种适合回收的均匀混合物时,需要大量的猜测工作和试验和错误,以创造一种适合回收方式的混溶物质。
但对于任何新兴技术,在真正准备好大规模利用之前,总是可以做一些工作来简化流程并解决问题。
该钻研共同作者 Ryo Yoshida 说:「为了进一步改进和扩展呆板进修技术,促进材料信息学领域的开放创新和开放科学,我们已将开发的部分源代码和数据向公众开放。」
为了便于后续的钻研,Python 源代码和其他相关资料已经上传到 GitHub 上。预计这些结果将有助于克服聚合物科学领域中尚未解决的重要问题。
GitHub 地址:https://github.com/yoshida-lab/MTL_ChiParameter
参考内容:https://phys.org/news/2023-10-machine-reveals-dissolve-polymeric-materials.html