可直接比较潜在新药的性能,杜克大学团队开发新的药物AI模型

编辑 | 白菜叶目前的分子机器学习模型往往将单个分子作为输入,来预测其生物、化学或物理特性。然而,此类算法需要大型数据集,并且尚未针对预测分子之间的性质差异进行优化,限制了它们从较小数据集学习的能力,也限制了直接比较两个分子预期性质的能力。杜克大学(Duke University)的研究人员开发了 DeepDelta,这是一种成对深度学习方法,可以同时处理两个分子,并学习从小数据集中预测两个分子之间的属性差异。在 10 个 ADMET 基准任务中,DeepDelta 方法显著优于两种已建立的分子机器学习算法:定向消

可直接比较潜在新药的性能,杜克大学团队开发新的药物AI模型

编辑 | 白菜叶

目前的分子机器学习模型往往将单个分子作为输入,来预测其生物、化学或物理特性。然而,此类算法需要大型数据集,并且尚未针对预测分子之间的性质差异进行优化,限制了它们从较小数据集学习的能力,也限制了直接比较两个分子预期性质的能力。

杜克大学(Duke University)的研究人员开发了 DeepDelta,这是一种成对深度学习方法,可以同时处理两个分子,并学习从小数据集中预测两个分子之间的属性差异。

在 10 个 ADMET 基准任务中,DeepDelta 方法显著优于两种已建立的分子机器学习算法:定向消息传递神经网络 (D-MPNN) ChemProp 和使用径向指纹的随机森林;并且DeepDelta 在预测分子特性的巨大差异方面尤其优于现有方法,甚至可以执行支架跳跃。

DeepDelta 提供了一种通过直接训练分子对及其属性差异来预测分子属性差异的准确方法,从而进一步支持药物开发和化学科学的分子优化的保真度和透明度。

该研究以「DeepDelta: predicting ADMET improvements of molecular derivatives with deep learning」为题,于 2023 年 10 月 27 日发布在《Journal of Cheminformatics》。

图片

药物设计需要在优化先导药物的靶向效力与维持适当的吸收、分布、代谢、排泄和毒性 (ADMET) 特征之间取得平衡。通过了解这些不同的特性,研究人员可以识别分子来开发更安全、更有效的新疗法。

为此,科学家对先导化合物系列进行了广泛的实验表征,以比较化合物的特性并确定最有希望的候选化合物。不幸的是,这种表征既费力又昂贵,并且可能包括复杂的体内实验。

因此,许多此类表征通常仅限于一小部分候选化合物,这导致对结构-活性关系的不完整理解,并有过早消除具有潜在有益特性的候选化合物的风险。为了加速和节省化合物特性的表征,同时能够评估更多的候选药物,计算方法越来越多地应用于药物开发中。

虽然现有的机器学习平台可以使研究人员能够筛选出与在实验室中物理制造相比更多的分子,但他们一次只能预测一个分子的性质,这限制了他们在确定最优化化合物时的总体效率。

虽然还有一些其他计算方法可以省去这个额外的步骤并直接比较分子,但它们的范围有限。例如,自由能扰动等方法非常准确,但计算起来非常复杂,以至于一次只能评估少数分子。另一方面,诸如匹配分子对之类的方法要快得多,但只能比较非常相似的分子,限制了它们的更广泛使用。

图片

图:传统和成对架构。(来源:论文)

为了解决这个问题,杜克大学的生物医学工程师 Daniel Reker 的团队开发了一个人工智能平台 DeepDelta,这是一种新颖的深度机器学习方法,可以直接训练和预测两个分子之间的属性差异。

「通过让网络从一对一的比较中学习,你可以为它提供比一次从一个分子学习更多的数据点。」Reker 说,「该平台正在了解每个分子的结构和特性,但它也在了解两者之间的差异以及这些差异如何影响分子的特性。」

鉴于 ADMET 性能优化对药物开发的重要性,研究人员专门针对 10 个已建立的 ADMET 性能基准数据集测试了 DeepDelta。考虑到建模过程的复杂性(通常涉及分子的复杂组织相互作用)以及通常源自低通量体内实验的小数据集大小,这些对于分子机器学习来说是具有挑战性的任务。

结果表明,DeepDelta 优于已建立的最先进的分子机器学习模型 ChemProp 和随机森林,用于预测大多数基准中分子之间的属性差异(Pearson r 为 82%,MAE 为 73%),包括所有外部测试数据集。

「分子差异训练使得这种方法在确定一种新化学物质比现有化学物质好还是坏时更加准确。」 Reker 实验室的博士生 、该平台的主要开发者 Zachary Fralish 说,「这就像做作业,更像是考试。我们还通过配对极大地扩展了数据集的大小,本质上是给我们的模型更多的功课,这确实有助于需要大量数据的神经网络了解更多信息。」

该团队现在期待着将 DeepDelta 纳入他们的正常工作流程中,从而设计潜在的新疗法并优化现有的候选药物。

「通过这个工具,我们可以研究一种几乎可以通过 FDA 批准的药物,但它可能存在肝毒性问题,所以它没有完全通过。」Fralish 说,「DeepDelta 可以帮助识别具有相同良好特性但没有肝毒性的分子。该工具可以帮助我们确定哪种化学物质最有可能在现实世界中实现我们想要的效果,从而节省时间和金钱,从而开辟了很多机会。」

论文链接:https://jcheminf.biomedcentral.com/articles/10.1186/s13321-023-00769-x

相关报道:https://phys.org/news/2023-12-ai-properties-potential-drugs.htm

相关资讯

稳健且准确,AlphaFold 结合两种 AI 方法,实现蛋白质化学位移自动分配

编辑 | 绿萝化学位移分配对于基于核磁共振 (NMR) 的蛋白质结构、动力学和相互作用研究至关重要,可提供重要的原子级见解。然而,获得化学位移分配是劳动密集型的并且需要大量的测量时间。为了解决这一限制,苏黎世联邦理工学院(ETH Zurich)的研究人员之前提出了 ARTINA——一种用于自动分配二维 (2D)–4D NMR 谱的深度学习方法。近日,研究人员提出了一种将 ARTINA 与 AlphaFold 和 UCBShift 相结合的综合方法,能够减少实验数据、提高准确性并增强大型系统的稳健性,从而实现化学位移

发现38万种新材料、17天自主合成41种新化合物,DeepMind一日两篇论文登上Nature

编辑 | 萝卜皮从计算机芯片、电池到太阳能电池板等现代技术都依赖于无机晶体。开发这些新技术,所需的晶体必须稳定,否则材料就会分解,而每个新的、稳定的晶体背后可能需要研究人员数月或者更久的艰苦实验。Google DeepMind 材料团队分享了 220 万颗新晶体的发现,相当于近 800 年的知识。该团队推出了新的深度学习工具,用于材料探索的图网络 (GNoME),可通过预测新材料的稳定性来显著提高发现的速度和效率。论文链接: GNoME,科学家可以使人类已知的技术上可行的材料数量成倍增加。在其 220 万个预测中,

某「新化合物」90年前就有了?伦敦大学学院教授对DeepMind参与的「A-Lab」提出质疑

编辑 | 紫罗上周,Google DeepMind 和加州大学伯克利分校的一组研究人员在《Nature》杂志上发表了一篇备受期待的论文,提出了一个「自主实验室」——A-Lab,旨在利用 AI 和机器人技术加速新材料的发现和合成。被称为「自动驾驶实验室」的 A-Lab 展示了一个雄心勃勃的愿景,即当配备计算建模、机器学习、自动化和自然语言处理方面的最新技术时,人工智能驱动的系统可以在科学研究中实现什么目标。A-Lab 如何工作。(来源:UC Berkeley/Nature)然而,在发表后的几天内,人们开始对论文中提出