编辑 | 白菜叶
目前的份子呆板进修模型往往将单个份子作为输入,来猜测其生物、化学或物理特征。然而,此类算法需要大型数据集,并且尚未针对猜测份子之间的性质差别进行优化,局限了它们从较小数据集进修的能力,也局限了直接对照两个份子预期性质的能力。
杜克大学(Duke University)的研讨职员开发了 DeepDelta,这是一种成对深度进修方式,可以同时处理两个份子,并进修从小数据集中猜测两个份子之间的属性差别。
在 10 个 ADMET 基准任务中,DeepDelta 方式显著优于两种已建立的份子呆板进修算法:定向消息传递神经网络 (D-MPNN) ChemProp 和使用径向指纹的随机森林;并且DeepDelta 在猜测份子特征的巨大差别方面尤其优于现有方式,甚至可以执行支架跳跃。
DeepDelta 提供了一种通过直接训练份子对及其属性差别来猜测份子属性差别的准确方式,从而进一步支持药物开发和化学科学的份子优化的保真度和透明度。
该研讨以「DeepDelta: predicting ADMET improvements of molecular derivatives with deep learning」为题,于 2023 年 10 月 27 日发布在《Journal of Cheminformatics》。
药物设计需要在优化先导药物的靶向效力与维持适当的吸收、分布、代谢、排泄和毒性 (ADMET) 特征之间取得平衡。通过了解这些不同的特征,研讨职员可以识别份子来开发更安全、更有效的新疗法。
为此,科学家对先导化合物系列进行了广泛的实验表征,以对照化合物的特征并规定最有希望的候选化合物。不幸的是,这种表征既费力又昂贵,并且可能包括复杂的体内实验。
因此,许多此类表征通常仅限于一小部分候选化合物,这导致对结构-活性关系的不完整理解,并有过早消除具有潜在有益特征的候选化合物的风险。为了加速和节省化合物特征的表征,同时能够评估更多的候选药物,计算方式越来越多地应用于药物开发中。
虽然现有的呆板进修平台可以使研讨职员能够筛选出与在实验室中物理制造相比更多的份子,但他们一次只能猜测一个份子的性质,这局限了他们在规定最优化化合物时的总体效率。
虽然还有一些其他计算方式可以省去这个额外的步骤并直接对照份子,但它们的范围有限。例如,自由能扰动等方式非常准确,但计算起来非常复杂,以至于一次只能评估少数份子。另一方面,诸如匹配份子对之类的方式要快得多,但只能对照非常相似的份子,局限了它们的更广泛使用。
图:传统和成对架构。(来源:论文)
为了解决这个问题,杜克大学的生物医学工程师 Daniel Reker 的团队开发了一个人工智能平台 DeepDelta,这是一种新颖的深度呆板进修方式,可以直接训练和猜测两个份子之间的属性差别。
「通过让网络从一对一的对照中进修,你可以为它提供比一次从一个份子进修更多的数据点。」Reker 说,「该平台正在了解每个份子的结构和特征,但它也在了解两者之间的差别以及这些差别如何影响份子的特征。」
鉴于 ADMET 性能优化对药物开发的重要性,研讨职员专门针对 10 个已建立的 ADMET 性能基准数据集测试了 DeepDelta。考虑到建模过程的复杂性(通常涉及份子的复杂组织相互作用)以及通常源自低通量体内实验的小数据集大小,这些对于份子呆板进修来说是具有挑战性的任务。
结果表明,DeepDelta 优于已建立的最先进的份子呆板进修模型 ChemProp 和随机森林,用于猜测大多数基准中份子之间的属性差别(Pearson r 为 82%,MAE 为 73%),包括所有外部测试数据集。
「份子差别训练使得这种方式在规定一种新化学物质比现有化学物质好还是坏时更加准确。」 Reker 实验室的博士生 、该平台的主要开发者 Zachary Fralish 说,「这就像做作业,更像是考试。我们还通过配对极大地扩展了数据集的大小,本质上是给我们的模型更多的功课,这确实有助于需要大量数据的神经网络了解更多信息。」
该团队现在期待着将 DeepDelta 纳入他们的正常工作流程中,从而设计潜在的新疗法并优化现有的候选药物。
「通过这个工具,我们可以研讨一种几乎可以通过 FDA 批准的药物,但它可能存在肝毒性问题,所以它没有完全通过。」Fralish 说,「DeepDelta 可以帮助识别具有相同良好特征但没有肝毒性的份子。该工具可以帮助我们规定哪种化学物质最有可能在现实世界中实现我们想要的效果,从而节省时间和金钱,从而开辟了很多机会。」
论文链接:https://jcheminf.biomedcentral.com/articles/10.1186/s13321-023-00769-x
相关报道:https://phys.org/news/2023-12-ai-properties-potential-drugs.htm