蛋白质

AlphaFold 预测细菌生存所需的 1402 种蛋白互作,最完整的细菌必需相互作用图谱

革兰氏阴性必需相互作用组。(来源:eLife)编辑 | 紫罗细菌蛋白质组平均由约 4000-5000 个蛋白质组成,这意味着相互作用组可能多达 2000 万个相互作用。据估计,大肠杆菌中大约有 12,000 种物理相互作用。然而,并非所有这些相互作用都对细菌的生存至关重要。对生物体中蛋白质相互作用的研究,是理解生物过程和中心代谢途径的基础。然而,我们对细菌相互作用组的了解仍然有限。近日,西班牙巴塞罗那自治大学(Universitat Autònoma de Barcelona,UAB)的研究人员使用人工智能工具 A

制药新工具、有望规避免疫反应,多伦多大学团队用AI框架重新设计参与基因治疗的关键蛋白质

编辑 | 萝卜皮当下,蛋白质设计深度生成模型的快速进展主要集中在具有大量数据的小蛋白质上。这些模型在天然序列有限的大蛋白上表现不佳,例如腺病毒和腺相关病毒的衣壳蛋白,它们是基因治疗的常见递送载体。生成合成病毒载体血清型可以克服大多数基因治疗接受者表现出的强大的预先存在的免疫反应。多伦多大学的研究人员提出了一种变异自动编码器(ProteinVAE),它可以生成合成病毒载体血清型,而无需预先存在的中和抗体的表位。将预先训练的蛋白质语言模型纳入编码器中以提高数据效率,并使用基于反卷积的上采样进行解码以避免长蛋白质序列生成

未来五年AI如何改变各学科?从LLM到AI蛋白设计、医疗保健......

2019—2023 年《Nature Machine Intelligence》封面编辑 | X五年前(2019 年 1 月),《Nature Machine Intelligence》创刊。当然,就人工智能(AI)而言,五年前似乎是一个不同的时代。1 月 24 日,Nature Machine Intelligence 杂志在《Anniversary AI reflections》(周年人工智能反思)专题中,再次联系并采访了近期在期刊发表评论和观点文章的作者,请他们从各自所在领域中举例说明人工智能如何改变科学过程

上海交大&中山大学团队使用ESMFold、预训练语言模型以及Graph Transformer,进行蛋白质结合位点预测

编辑 | 萝卜皮识别蛋白质的功能位点,例如蛋白质、肽或其他生物成分的结合位点,对于理解相关的生物过程和药物设计至关重要。然而,现有的基于序列的方法的预测准确性有限,因为它们只考虑序列相邻的上下文特征并且缺乏结构信息。上海交通大学和中山大学的研究人员提出了 DeepProSite,用于利用蛋白质结构和序列信息来识别蛋白质结合位点。DeepProSite 首先从 ESMFold 生成蛋白质结构,并从预训练的语言模型生成序列表示。然后,它使用 Graph Transformer 并将结合位点预测制定为图节点分类。在预测蛋

迈向程序化蛋白质生成

编译 | 波菜叶机器学习算法在计算蛋白质设计中的应用最近取得了许多成就,例如从氨基酸序列预测3D结构以及可以折叠成所需3D结构的蛋白质序列的逆向设计。然而,从头蛋白质结构生成——即生成具有所需特性的蛋白质结构——仍然是一项艰巨的任务。巨大的蛋白质分子空间,以及功能性蛋白质仅由所有可能的蛋白质分子的一小部分组成的事实,使得有效识别序列、结构和功能(或性质)之间的关系变得困难。虽然深度生成模型促进了蛋白质结构的生成,但仍然存在一些挑战,例如完整蛋白质复杂性的生成、具有不同设计约束的条件采样而不需要重新训练模型,以及随着

AI揭示微生物暗蛋白:使用机器学习来发现微生物蛋白质宇宙中的功能性「暗物质」

编辑 | 白菜叶宏基因组学项目揭示了地球生物圈中超过 80 亿个非冗余微生物蛋白质序列。其中,11.7 亿种蛋白质在超过 100,000 个可用参考基因组中没有可识别的同源物。了解这些微生物蛋白质的功能是一项艰巨的任务。幸运的是,机器学习最近在复杂生物数据建模和预测方面取得了前所未有的准确性。这些进步的最前沿是基于机器学习的方法,可以自信地预测许多(但不是全部)氨基酸序列的原子级蛋白质结构。最近的一项研究使用 ESMFold 预测器,该预测器利用大型语言模型,从欧洲生物信息学研究所的 MGnify 宏基因组数据库快

将合成生物学与AI相结合,以无细胞方式寻找新抗生素

编辑 | 萝卜皮生物活性肽是健康和医学的关键分子。深度学习为生物活性肽的发现和设计带来了巨大的希望。然而,需要合适的实验方法来以高通量和低成本验证候选物。马克斯·普朗克陆地微生物研究所(Max Planck Institute for Terrestrial Microbiology)的研究团队建立了无细胞蛋白质合成(CFPS)管线,用于直接从 DNA 模板快速、廉价地生产抗菌肽 (AMP)。为了验证该平台,研究人员使用深度学习从头设计了数千个 AMP。使用计算方法,研究人员对使用 CFPS 管线生成和筛选的 50

Nature | 通过功能优先、人工智能引导的生成模型 Chroma 重塑蛋白质设计

编辑 | 萝卜皮三十亿年的进化已经产生了极其多样化的蛋白质分子,但蛋白质的全部潜力可能要大得多。挖掘这种潜力对于计算和实验来说都是一个挑战,因为可能存在的蛋白质分子的空间,比那些可能具有功能的空间大得多。美国 Generate Biomedicines 的研究团队介绍了 Chroma,一种蛋白质和蛋白质复合物的生成模型,可以直接对新的蛋白质结构和序列进行采样,并且可以进行调节以引导生成过程实现所需的特性和功能。为了实现这一点,研究人员引入了一种尊重聚合物整体构象统计的扩散过程,这是一种分子系统的有效神经架构,它能够

华科大团队开发几何三角形感知蛋白质语言模型,预测蛋白质-蛋白质接触

编辑 | 萝卜皮有关相互作用蛋白质之间的残基-残基距离的信息对于蛋白质复合物的结构建模非常重要,并且对于理解蛋白质-蛋白质相互作用的分子机制也很有价值。随着深度学习的出现,人们开发了许多方法来准确预测单体的蛋白质内残基-残基接触。然而,准确预测蛋白质复合物,尤其是异源蛋白质复合物的蛋白质间残基-残基接触仍然具有挑战性。华中科技大学的研究人员开发了一种基于蛋白质语言模型的深度学习方法,通过在深度神经网络中引入三角形更新和三角形自注意力的三角形感知机制来预测蛋白质复合物的蛋白质间残基-残基接触(称为 DeepInter

多伦多大学团队使用AlphaFold获得对蛋白质结构的新见解

编辑 | 萝卜皮AlphaFold 蛋白质结构数据库包含数百万种蛋白质的预测结构。对于大多数含有本质无序区域 (IDR) 的人类蛋白质,这些区域不采用稳定的结构,通常认为这些区域具有较低的 AlphaFold2 置信度分数,反映了低置信度的结构预测。多伦多大学(University of Toronto)的研究团队表明 AlphaFold2 为近 15% 的人类 IDR 分配了可信结构。通过与已知条件折叠(即在结合或其他特定条件下)的 IDR 子集的实验 NMR 数据进行比较,研究人员发现 AlphaFold2 通

更高准确性,覆盖蛋白、核酸、复合物等更多分子,DeepMind发布AlphaFold新版本

编辑 | ScienceAI自 2020 年发布以来,AlphaFold 彻底改变了人们对蛋白质及其相互作用的理解方式。Google DeepMind 和 Isomorphic Labs 一直在共同努力,为更强大的 AI 模型奠定基础,将覆盖范围从蛋白质扩展到全方位的生物相关分子。2023 年 10 月 31 日,该研究团队分享了下一代 AlphaFold 的最新进展。其最新的模型现在可以对蛋白质数据库 (PDB) 中的几乎所有分子进行预测,通常达到原子精度。新版模型 AlphaFold-latest (暂称)极大

可预测蛋白质-配体结合亲和力,之江实验室&百度&港科大团队开发基于曲率的自适应图神经网络

编辑 | 萝卜皮准确预测蛋白质和配体之间的结合亲和力对于药物发现至关重要。图神经网络(GNN)的最新进展在学习蛋白质-配体复合物的表示以估计结合亲和力方面取得了重大进展。为了提高 GNN 的性能,经常需要从几何角度研究蛋白质-配体复合物。虽然「现成的」GNN 可以包含分子的一些基本几何结构,例如距离和角度,通过将复合体建模为同亲图,这些解决方案很少考虑更高级别的几何属性,例如曲率和同源性,以及异亲相互作用。为了解决这些限制,之江实验室、百度大数据以及香港科技大学的研究人员引入了基于曲率的自适应图神经网络(CurvA

哈工大与腾讯开发:一种专门针对蛋白质组数据设计的反卷积方法

编辑 | 萝卜皮细胞类型反卷积是一种用于从大量测序数据中确定/解析细胞类型比例的计算方法,并且经常用于分析肿瘤组织样本中的不同细胞类型。然而,由于重复性/再现性、参考标准可变以及缺乏单细胞蛋白质组参考数据的挑战,使用蛋白质组数据分析细胞类型的反卷积技术仍处于起步阶段。哈尔滨工业大学、腾讯 AI lab 以及苏黎世联邦理工学院的研究团队合作开发了一种专门针对蛋白质组数据设计的基于深度学习的反卷积方法(scpDeconv)。scpDeconv 使用自动编码器利用来自批量蛋白质组数据的信息来提高单细胞蛋白质组数据的质量,

哈工大与腾讯团队合作开发:一种专门针对蛋白质组数据设计的深度学习反卷积方法

编辑 | 萝卜皮细胞类型反卷积是一种用于从大量测序数据中确定/解析细胞类型比例的计算方法,并且经常用于分析肿瘤组织样本中的不同细胞类型。然而,由于重复性/再现性、参考标准可变以及缺乏单细胞蛋白质组参考数据的挑战,使用蛋白质组数据分析细胞类型的反卷积技术仍处于起步阶段。哈尔滨工业大学、腾讯 AI lab 以及苏黎世联邦理工学院的研究团队合作开发了一种专门针对蛋白质组数据设计的基于深度学习的反卷积方法(scpDeconv)。scpDeconv 使用自动编码器利用来自批量蛋白质组数据的信息来提高单细胞蛋白质组数据的质量,

以「钥匙和锁」方式设计分子,浙大&碳硅智慧开发3D分子生成新模型SurfGen

编辑 | 紫罗高效的从头设计是计算机辅助药物发现的巨大挑战。上个月,浙大侯廷军团队和碳硅智慧合作提出了一种基于蛋白口袋的三维(3D)分子生成模型——ResGen,ResGen 计算效率更高,比之前最好的技术快大约八倍。研究成果发表在《Nature Machine Intelligence》上。近日,该团队又在《Nature Computational Science》发表了其最新研究,提出用于基于结构的分子设计新模型——SurfGen。近年来,真实的结构特异性三维分子生成已经开始出现,但大多数方法将目标结构视为偏向

MIT研究人员将Transformer与图神经网络结合,用于设计全新蛋白质

编辑 | 萝卜皮凭借其复杂的排列和动态功能,蛋白质通过采用简单构建块的独特排列(其中几何形状是关键)来执行大量的生物任务。将这个几乎无限的排列库转化为各自的功能,可以方便研究人员设计用于特定用途的定制蛋白质。麻省理工学院(MIT)的 Markus Buehler 提出了一种灵活的基于语言模型的深度学习策略,将 Transformer 与图神经网络结合起来,以更好地理解和设计蛋白质。「通过这种新方法,我们可以通过对基本原理进行建模,利用大自然发明的一切作为知识基础。」Buehler 说,「该模型重新组合了这些自然构建

蛋白质侧链预测新方法DiffPack:扩散模型也能精准预测侧链构象!

有效预测蛋白质侧链构象,更加精准啦!

图生成扩散模型综述:算法与在分子和蛋白质建模上应用

论文简要回顾了扩散模型在图数据上的算法及相关应用的若干研究。论文链接::(Graph-based Data)可以保存现实世界实体(节点)之间丰富多样的关系信息,包括实体间的关联联系、属性特征、以及拓扑结构,已经在社交网络分析、推荐系统、生物信息学等领域有广泛的应用。图生成模型旨在理解和学习现有的图数据分布,并合成新的图样本。这对于研究图数据中潜在的图结构关系,理解现有数据中的模式、关联和隐藏的信息具有重要的意义。生成模型可以用于探索图数据不同尺度的关系、发现社区结构、预测节点属性等。主要的图生成范式分为两类:自回归