蛋白质 - AI在线

蛋白质功能预测新SOTA，上海理工、牛津等基于统计的AI方法，登Nature子刊

编辑 | KX蛋白质与其他分子相结合，促进几乎所有的基础生物活动。因此，了解蛋白质功能对于理解健康、疾病、进化和分子水平上的生物体功能至关重要。然而，超过 2 亿种蛋白质仍未得到表征，计算方法在很大程度上依赖于蛋白质的结构信息来预测不同质量的注释。近日，来自牛津大学、苏黎世联邦理工学院、上海理工大学和北京师范大学组成的研究团队，设计了一种基于统计的图网络方法，称为 PhiGnet，从而促进蛋白质的功能注释和功能位点的识别。PhiGnet 不仅在性能上优于其它方法，而且即使在没有结构信息的情况下也缩小了序列-功能差距

8/22/2024 2:39:00 PM

ScienceAI

中科院计算所团队提出CarbonNovo，基于AI进行蛋白质结构和序列的端到端从头设计

编辑 | ScienceAI作者 | 计算所张海仓团队近期，中国科学院计算所张海仓带领的研究团队提出了 CarbonNovo，以端到端的方式联合设计蛋白质主链结构和序列。该研究以「CarbonNovo: Joint Design of Protein Structure and Sequence Using a Unified Energy-based Model」为题发表在机器学习会议 ICML 2024 上。背景介绍蛋白质是生物执行功能的重要大分子。蛋白质从头设计旨在创造全新的蛋白质，在药物开发和酶工程中有着广

8/21/2024 4:01:00 PM

ScienceAI

AI从头设计蛋白质「开关」，蛋白质设计的惊人突破，David Baker研究登Nature

编辑 | KX在生活中，打开一盏灯，或者调节灯光很简单。但实现类似生物分子功能控制的系统却很复杂，而且人们对此了解甚少。在生物学中，蛋白质功能以复杂的方式开启和关闭，变构调节是其中一种重要的生物学调节机制，对于健康的新陈代谢和细胞信号传导至关重要，但在合成蛋白质系统中，创建变构现象一直存在重大挑战。近日，华盛顿大学 David Baker 团队，设计出了能够通过变构控制，可靠而准确地在组装和拆卸之间转换的蛋白质。研究人员利用 AI 设计自然界中不存在的新蛋白质，设计了多种动态蛋白质排列。David Baker 说：

8/20/2024 11:56:00 AM

ScienceAI

比原始分辨率高36倍，北航、清华团队用AI在多空间组学平台上高分辨率表征组织，登Nature子刊

编辑 | 萝卜皮空间组学的最新进展已将分子类别分析的范围扩展到转录组学之外。然而，许多此类技术都受到空间分辨率的限制，阻碍了科学家深入表征复杂组织结构的能力。现有的计算方法主要侧重于转录组学数据的分辨率增强，缺乏针对各种组学类型的新兴空间组学技术的适应性。在这里，北京航空航天大学和清华大学的研究人员提出了 soScope，这是一个统一的生成框架，旨在提高从各种空间组学技术获得的分子谱的数据质量和空间分辨率。soScope 可以汇总来自组学、空间关系和图像的多模态组织信息，并通过分布先验与组学特定建模联合推断出具有增

8/14/2024 4:32:00 PM

ScienceAI

糖蛋白组学新方法，复旦开发基于Transformer和GNN的混合端到端框架，登Nature子刊

编辑 | 萝卜皮蛋白质糖基化是糖基对蛋白质进行的一种翻译后修饰，在细胞的多种生理和病理功能中起着重要作用。糖蛋白质组学是在蛋白质组范围内研究蛋白质糖基化，利用液相色谱与串联质谱 (MS/MS) 联用技术获取糖基化位点、糖基化水平和糖结构的组合信息。然而，由于结构决定离子的出现有限，目前糖蛋白质组学的数据库搜索方法通常难以确定聚糖结构。虽然光谱搜索方法可以利用碎片强度来促进糖肽的结构鉴定，但是光谱库构建的困难阻碍了它们的应用。在最新的研究中，复旦大学的研究人员提出了 DeepGP，一种基于 Transformer 和

8/4/2024 7:57:00 PM

ScienceAI

生成394,760种蛋白质表征，哈佛团队开发AI模型，全面理解蛋白质上下文

编辑 | 萝卜皮了解蛋白质功能和开发分子疗法，需要破译蛋白质发挥作用的细胞类型，解析蛋白质之间的相互作用。然而，对跨生物背景蛋白质相互作用进行建模对于现有算法来说仍然具有挑战性。在最新的研究中，哈佛医学院的研究人员开发了 PINNACLE，这是一种生成情境感知蛋白质表征的几何深度学习方法。PINNACLE 利用多器官单细胞图谱，在情境化蛋白质相互作用网络上进行学习，从 24 种组织的 156 种细胞类型情境中生成 394,760 种蛋白质表征。该研究以「Contextual AI models for single

7/26/2024 3:12:00 PM

ScienceAI

SOTA性能，厦大多模态蛋白质-配体亲和力预测AI方法，首次结合分子表面信息

编辑 | KX在药物研发领域，准确有效地预测蛋白质与配体的结合亲和力对于药物筛选和优化至关重要。然而，目前的研究没有考虑到分子表面信息在蛋白质-配体相互作用中的重要作用。基于此，来自厦门大学的研究人员提出了一种新颖的多模态特征提取（MFE）框架，该框架首次结合了蛋白质表面、3D 结构和序列的信息，并使用交叉注意机制进行不同模态之间的特征对齐。实验结果表明，该方法在预测蛋白质-配体结合亲和力方面取得了最先进的性能。此外，消融研究证明了该框架内蛋白质表面信息和多模态特征对齐的有效性和必要性。相关研究以「Surface-

7/16/2024 6:39:00 PM

ScienceAI

登Science，药物亲和力增加37倍，AI对蛋白、抗体复合物进行无监督优化

编辑 | 萝卜皮蛋白质参与了细胞组成、肌肉收缩、消化食物、识别病毒等众多生物学功能。为了设计出更好的蛋白质（包括抗体），科学家经常在不同位置反复变异氨基酸（按一定顺序排列组成蛋白质的单位），直到使蛋白质获得所需要的功能。但氨基酸序列的数量比世界上的沙粒还要多，因此找到最佳蛋白质，进而找到最佳潜在药物，通常难度巨大。当面临这一挑战时，科学家通常会花费数百万美元，并在微型化、简化版的生物系统中进行测试。「这需要大量的猜测和验证。」斯坦福大学（Stanford University）化学工程助理教授兼 Arc 研究所创新

7/15/2024 5:36:00 PM

ScienceAI

精度媲美AlphaFold，EPFL的AI方法从序列中匹配蛋白质互作

编辑 | 枯叶蝶蛋白质是生命的基石，参与几乎所有的生物过程。了解蛋白质如何相互作用对于解释细胞功能的复杂性至关重要，对药物开发和疾病治疗也具有重要意义。洛桑联邦理工学院（École Polytechnique Fédérale de Lausanne，EPFL）的 Anne-Florence Bitbol 团队提出了一种配对相互作用的蛋白质序列的方法，该方法利用了在多个序列比对上训练的蛋白质语言模型的强大功能；它对于小型数据集表现良好，它可以通过监督方法改进蛋白质复合物的结构预测。该研究以「Pairing inte

7/11/2024 11:53:00 AM

ScienceAI

上交大洪亮课题组&上海AI实验室团队发布FSFP，基于语言模型的蛋白质功能小样本预测方法，登Nature子刊

编辑 | ScienceAI近日，上海交通大学自然科学研究院/物理天文学院/张江高研院/药学院洪亮教授课题组，联合上海人工智能实验室青年研究员谈攀，在蛋白质突变-性质预测上取得重要突破。该工作采用全新的训练策略，在使用极少湿实验数据的情况下，极大地提高了传统蛋白质预训练大模型在突变-性质预测的效果。该研究成果以《Enhancing the efficiency of protein language models with minimal wet-lab data through few-shot learning

7/8/2024 6:46:00 PM

ScienceAI

仅几秒，准确推断蛋白动力学信息，山大、北理工等AI模型RMSF-net登Nature子刊

编辑 | KX蛋白质的动力学对于理解其机制至关重要。然而，通过计算预测蛋白质动学信息具有挑战性。在此，来自山东大学、百图生科（BioMap）、北京理工大学、湖北医药学院、宁夏医科大学和阿卜杜拉国王科技大学（KAUST）的研究团队，提出了一个神经网络模型 RMSF-net，其优于以前的方法，并在大规模蛋白质动力学数据集中产生最佳结果；该模型可以在几秒钟内准确推断出蛋白质的动力学信息。通过从实验蛋白质结构数据和低温电子显微镜 (cryo-EM) 数据集成中有效地学习，该方法能够准确识别低温电子显微镜图和 PDB 模型之

7/5/2024 2:45:00 PM

ScienceAI

Nature子刊，准确率达96%，AI从序列中预测蛋白-配体互作

编辑 | 萝卜皮在药物研发中，确定小分子配体对蛋白质的结合亲和力和功能效应至关重要。目前的计算方法可以预测这些蛋白质-配体相互作用特性，但如果没有高分辨率的蛋白质结构，通常会失去准确性，并且无法预测功能效应。莫纳什大学（Monash University）和格里菲斯大学（Griffith University）的研究人员开发了 PSICHIC（PhySIcoCHemICal graph neural network），这是一个结合物理化学约束的框架，可直接从序列数据解码相互作用指纹（fingerprints）。这使

7/4/2024 3:41:00 PM

ScienceAI

登Nature子刊，拓扑Transformer模型进行多尺度蛋白质-配体互作预测，助力药物研发

编辑 | 萝卜皮一项新的人工智能应用将帮助研究人员提高药物研发能力。该项目名为 TopoFormer，是由美国密歇根州立大学（Michigan State University）数学系 Guowei Wei 教授领导的跨学科团队开发的。TopoFormer 将分子的三维信息转化为典型的基于人工智能的药物相互作用模型可以使用的数据，扩展了这些模型预测药物有效性的能力。「有了人工智能，你可以让药物研发更快、更高效、更便宜。」Wei 说，他同时在生物化学和分子生物学系以及电气和计算机工程系任职。Wei 教授解释道，在美国

7/2/2024 11:59:00 AM

ScienceAI

清华AIR等提出ESM-AA，首个从氨基酸到原子尺度的蛋白质语言模型

来自清华大学AIR、北京大学、南京大学的研究团队提出了 ESM-AA 模型。该模型在蛋白质语言建模领域取得了重要进展，提供了一套整合多尺度信息的统一建模方案。它是首个能同时处理氨基酸信息和原子信息的蛋白质预训练语言模型。模型的出色性能展示了多尺度统一建模在克服现有局限和解锁新能力方面的巨大潜力。作为基座模型，ESM-AA 获得了多位学者的关注与广泛讨论（截图见下方），被认为有潜力基于 ESM-AA 开发出可与 AlphaFold3、RoseTTAFold All-Atom 相竞争的模型，为研究不同生物结构间的相互作

6/28/2024 2:21:00 PM

ScienceAI

准确率达0.96，从序列中预测蛋白-配体互作的物理化学约束图神经网络

编辑 | 萝卜皮在药物研发中，确定小分子配体对蛋白质的结合亲和力和功能效应至关重要。目前的计算方法可以预测这些蛋白质-配体相互作用特性，但如果没有高分辨率的蛋白质结构，通常会失去准确性，并且无法预测功能效应。莫纳什大学（Monash University）和格里菲斯大学（Griffith University）的研究人员开发了 PSICHIC（PhySIcoCHemICal graph neural network），这是一个结合物理化学约束的框架，可直接从序列数据解码相互作用指纹（fingerprints）。这使

6/28/2024 2:21:00 PM

ScienceAI

模拟5亿年的进化信息，首个同时推理蛋白质序列、结构和功能的生物学大模型

编辑 | 萝卜皮在三十亿年的自然进化历程中，现存蛋白质的形态得以形成，经历了漫长的自然筛选过程。进化如同在地质时间尺度上进行的平行实验，通过随机突变和选择机制，依据蛋白质的序列、结构与功能进行筛选。在这里，EvolutionaryScale 的研究人员展示了在进化产生的标记上训练的语言模型可以充当进化模拟器，用于生成不同于已知蛋白质序列的功能性蛋白质。研究人员提出了 ESM3，这是一种前沿的多模态生成语言模型，可推理蛋白质的序列、结构和功能。ESM3 可以结合其模态来遵循复杂的提示，并且对生物学对齐（biologi

6/26/2024 3:57:00 PM

ScienceAI

比传统方法高30倍，中国科学院团队Transformer深度学习模型预测糖-蛋白质作用位点

编辑 | 萝卜皮糖类是自然界中最丰富的有机物质，对生命至关重要。了解糖类如何在生理和病理过程中调节蛋白质，可以为解决关键的生物学问题和开发新的治疗方法提供机遇。然而，糖类分子的多样性和复杂性，对实验识别糖-蛋白质结合以及相互作用的位点提出了挑战。在这里，中国科学院团队开发了一种深度学习模型 DeepGlycanSite，它能够准确预测给定蛋白质结构上的糖结合位点。DeepGlycanSite 将蛋白质的几何和进化特征融入具有 Transformer 架构的深度等变图神经网络中，其性能显著超越了之前的先进方法，并能有

6/25/2024 7:15:00 PM

ScienceAI

成功率超越RoseTTAFold系列，用序列信息直接预测蛋白质-配体复合物结构

编辑 | 萝卜皮蛋白质-配体对接是药物发现和开发中一种成熟的工具，用于缩小实验测试的潜在治疗范围。然而，高质量的蛋白质结构是必需的，而且蛋白质通常被视为完全或部分刚性的。在这里，柏林自由大学（Freie Universität Berlin）的研究人员开发了一个人工智能系统，可以直接从序列信息预测蛋白质-配体复合物的完全柔性全原子结构。虽然经典对接方法仍然更胜一筹，但这也取决于目标蛋白质的晶体结构。除了预测灵活的全原子结构外，预测置信度指标 (plDDT) 还可用于选择准确的预测，以及区分强结合剂和弱结合剂。该研究

6/18/2024 6:29:00 PM

ScienceAI