蛋白质
比传统方法高30倍,中国科学院团队Transformer深度学习模型预测糖-蛋白质作用位点
编辑 | 萝卜皮糖类是自然界中最丰富的有机物质,对生命至关重要。了解糖类如何在生理和病理过程中调节蛋白质,可以为解决关键的生物学问题和开发新的治疗方法提供机遇。然而,糖类分子的多样性和复杂性,对实验识别糖-蛋白质结合以及相互作用的位点提出了挑战。在这里,中国科学院团队开发了一种深度学习模型 DeepGlycanSite,它能够准确预测给定蛋白质结构上的糖结合位点。DeepGlycanSite 将蛋白质的几何和进化特征融入具有 Transformer 架构的深度等变图神经网络中,其性能显著超越了之前的先进方法,并能有
成功率超越RoseTTAFold系列,用序列信息直接预测蛋白质-配体复合物结构
编辑 | 萝卜皮蛋白质-配体对接是药物发现和开发中一种成熟的工具,用于缩小实验测试的潜在治疗范围。然而,高质量的蛋白质结构是必需的,而且蛋白质通常被视为完全或部分刚性的。在这里,柏林自由大学(Freie Universität Berlin)的研究人员开发了一个人工智能系统,可以直接从序列信息预测蛋白质-配体复合物的完全柔性全原子结构。虽然经典对接方法仍然更胜一筹,但这也取决于目标蛋白质的晶体结构。除了预测灵活的全原子结构外,预测置信度指标 (plDDT) 还可用于选择准确的预测,以及区分强结合剂和弱结合剂。该研究
「AI+物理先验知识」,浙大、中国科学院通用蛋白质-配体相互作用评分方法登Nature子刊
编辑 | X蛋白质就像是身体中的精密锁具,而药物分子则是钥匙,只有完美契合的钥匙才能解锁治疗之门。科学家们一直在寻找高效的方法来预测这些「钥匙」和「锁」之间的匹配度,即蛋白质-配体相互作用。然而,传统的数据驱动方法往往容易陷入「死记硬背」,记住配体和蛋白质训练数据,而不是真正学习它们之间的相互作用。近日,浙江大学和中国科学院研究团队,提出了一种名为 EquiScore 的新型评分方法,利用异构图神经网络整合物理先验知识,并在等变几何空间中表征蛋白质-配体相互作用。EquiScore 基于一个新数据集进行训练,该数据
1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种
编辑 | 萝卜皮不久之前,Google DeepMind 发布了 AlphaFold3,再次引发了人们对「AI 生命科学」的讨论。在学界,科学家的目标往往是先认识世界,然后在认识的基础上改造世界。但是在生命科学领域,人类对整个生命的理解与认识还如九牛一毛、冰山一角;建立对生命系统的多维度深刻认识是当前人类研究的重要一步,AI 是达成这一步的重要工具。近期,阿里云飞天实验室发布并开源了业界首个联合 DNA、RNA、蛋白质的生物大模型「LucaOne」。这是一种新型预训练基础模型,旨在综合学习遗传和蛋白质组语言,涵
登Nature子刊,中科院计算所团队开发CarbonDesign,进行准确且稳健的蛋白质序列设计
编辑 | 萝卜皮蛋白质是生物体内执行生物功能的基础元件,在催化、免疫和信号传递等生物过程中起着重要作用。一般认为,蛋白质序列设计是蛋白质结构预测的逆问题。具体地,是指从给定的蛋白质三维结构出发,设计出能够折叠成为目标蛋白结构、具有目标蛋白功能的序列。它是从头蛋白质设计的关键一步,一旦主链结构被生成,为其设计最佳序列就变得至关重要。蛋白质序列设计在药物设计、酶工程等领域具有重要应用。由于可能的蛋白质序列和结构比宇宙中的粒子数量还要多,当前实现准确且稳健的蛋白质序列设计,仍然是一个挑战。中国科学院计算技术研究所张海仓、
获ICLR 2024杰出论文奖,97.47%体外成功率,蛋白质设计新算法
编辑 | 紫罗在今年的 ICLR 会议上,共评选出 5 篇杰出论文奖以及 11 篇荣誉提名。纽约大学和基因泰克(Genentech)合作发表的一篇关于蛋白质设计的研究论文获得杰出论文奖。这篇论文解决了基于序列的抗体设计问题,这是蛋白质序列生成模型的一个及时而重要的应用。为此,研究人员引入了一种创新而有效的新建模方法——离散「步行-跳跃」采样(Discrete Walk-Jump Sampling,dWJS)算法,用来专门针对处理离散蛋白质序列数据的问题。除了在计算机上验证该方法之外,还进行了广泛的湿实验室实验,来测
辉瑞 AI 方法登 Science,揭示数以万计的配体-蛋白质相互作用
编辑 | X尽管蛋白质结构预测取得了重大进展。但对于 80% 以上的蛋白质,迄今为止尚未发现小分子配体。识别大多数蛋白质的小分子配体仍具有挑战性。现在,奥地利科学院分子医学研究中心 CeMM 的研究人员与辉瑞公司合作,开发了一种方法来预测数百种小分子与数千种人类蛋白质的结合活性。这项大规模研究揭示了数以万计的配体-蛋白质相互作用,通过探索这些相互作用,从而可以开发化学工具和治疗方法。此外,在机器学习和人工智能的支持下,它可以「公正」地预测小分子如何与活体人类细胞中存在的所有蛋白质相互作用。相关研究以《Large-s
AI可以改写人类基因组吗?首次由AI从头设计的基因编辑器成功编辑人类细胞中DNA
编辑 | 凯霞生成式 AI 可以对话、写诗、画图、做视频、作曲、写代码......那么,AI 可以改写人类基因组吗?现在,新的 AI 技术正在为可编辑 DNA 的微观生物机制绘制蓝图,这预示着未来科学家将以更高的精度和速度对抗疾病。近日,美国 AI 蛋白质设计初创公司 Profluence 推出了 OpenCRISPRTM 计划,发布了世界上第一个开源的 AI 生成的基因编辑器。Profluence 展示了通过 AI 从头开始设计的可定制基因编辑器,对人类基因组的首次成功精确编辑。该技术基于驱动 ChatGPT 的
预测蛋白质共调控和功能,哈佛&MIT训练含19层transformer的基因组语言模型
编辑 | 萝卜皮破译基因及其基因组背景之间的关系,是理解和设计生物系统的基础。机器学习在从大量蛋白质序列数据集中学习序列-结构-功能范式背后的潜在关系方面表现出潜力。哈佛大学和麻省理工学院(MIT)的研究人员在数百万个宏基因组框架上训练基因组语言模型(gLM),从而分析基因之间潜在的功能和调控关系。gLM 能够学习「上下文」化的蛋白质嵌入,捕获基因组上下文以及蛋白质序列本身,并编码具有生物学意义和功能相关的信息(例如酶功能、分类学)。该研究以「Genomic language model predicts prot
登Science,药物亲和力<5纳摩尔,加州大学开发特异性药物结合蛋白的从头计算方法
编辑 | 萝卜皮随着抗癌研究的不断深入,科学家们一直在寻找新的方法来提高治疗效果并减少副作用。小分子结合蛋白的从头设计技术是解决这一问题的关键。然而,高亲和力结合和可调特异性,通常需要在计算设计后进行复杂的筛选和优化,这为研究造成了重大阻碍。加州大学旧金山分校的研究人员开发了一种名为 COMBS 的从头蛋白质设计计算方法,并设计了能与新兴抗癌药物紧密结合的蛋白质。实验验证表明,所设计的蛋白质与药物的亲和力强度达到了小于 5 纳摩尔的水平;X 射线晶体结构证实了所设计蛋白质与药物相互作用的准确性。这表明,科学家可以通
3倍灵敏度,搜索百万蛋白对只需几秒,复旦、山大、上海交大开发新的蛋白质语言模型
编辑 | 萝卜皮同源蛋白质搜索是蛋白质注释和分析最常用的方法之一。与结构搜索相比,仅从序列中检测远程进化关系仍然具有挑战性。复旦大学、山东大学以及上海交通大学的研究团队提出了 PLMSearch(Protein Language Model),一种仅以序列作为输入的同源蛋白质搜索方法,能够捕获隐藏在序列后面的远程同源信息。PLMSearch 可以像 MMseqs2 一样在几秒钟内搜索数百万个查询目标蛋白质对,同时将灵敏度提高三倍以上,可与当前最先进的结构搜索方法相媲美。此外,与传统的序列搜索方法不同,PLMSear
腾讯AI Lab 3篇蛋白质组论文入选国际顶级期刊,为阐释生命提供重要技术参考
编辑 | ScienceAI只有蛋白质组才能从根本上阐释生命。3月20日,腾讯 AI Lab实验室3篇蛋白质组论文相继入选国际顶级学术期刊,论文分别在蛋白质组的检测、分析以及探索发现方面提出全新的研究方案,为人类从根本上阐释生命提供重要技术参考。科学界曾经认为,只要绘制出人类基因组序列图,就能了解疾病的根源,但事实并非如此。相同的基因往往有不同的表达,比如,人体不同组织器官的基因组是一样的,但是各个组织器官的蛋白质组不完全一样。人和鼠的基因组的差别仅为1%,但是其形态、性状差别非常大,这就是蛋白质组不一样的体现。中
里程碑时刻!David Baker 团队利用 AI 从头设计抗体
抗体(粉色)与流感病毒蛋白(黄色)结合(艺术构思)。(来源:Juan Gaertner/Science Photo Library)编辑 | X改进的蛋白质设计工具可以更轻松地解决具有挑战性的药物靶点,但 AI 抗体距离进入临床还有很长的路要走。华盛顿大学 David Baker 团队最新研究又来了。Baker 团队对其去年发布的 AI 工具 RFdiffusion 进行了改进。首次使用生成式 AI 来帮助他们制造全新的抗体。将 AI 引导的蛋白质设计引入价值数千亿美元的治疗性抗体市场。共同作者、华盛顿大学计算生物
可发现药物靶点,哈佛等机构开发了一种对蛋白建模的深度学习方法
编辑 | 萝卜皮翻译延伸对于维持细胞蛋白质稳态至关重要,并且翻译景观的改变与一系列疾病相关。核糖体分析可以在基因组规模上详细测量翻译。然而,目前尚不清楚如何从这些数据中的技术产物中分离出生物变异,并识别翻译失调的序列决定因素。在最新的研究中,中国科学院、哈佛大学(Harvard University)、斯坦福大学(Stanford University)、约翰霍普金斯大学(Johns Hopkins University)的研究团队开发了 Riboformer,一个基于深度学习的框架,用于对翻译动态中上下文相关的变
Nature子刊 | KAUST团队训练大语言模型,进行作为近似语义蕴涵的蛋白质功能预测
编辑 | 萝卜皮基因本体论(Gene Ontology,GO)是一种公理理论,目前拥有超过 100,000 条公理,描述了三个子本体中蛋白质的分子功能、生物过程和细胞位置。使用 GO 预测蛋白质的功能需要模型拥有学习和推理能力。科学家已经开发出多种方法来自动预测蛋白质功能,但有效利用 GO 中的所有公理进行知识增强学习仍然是一个挑战。阿卜杜拉国王科技大学(King Abdullah University of Science & Technology,KAUST)的研究人员开发了 DeepGO-SE,这是一种使用预
预测所有生物分子,David Baker 团队蛋白质设计新工具 RoseTTAFold All-Atom 登 Science
编辑 | ScienceAI在蛋白领域,华盛顿大学 David Baker 团队又带来了新进展。蛋白质是生命存在不可或缺的分子,但它们不是细胞中唯一的分子,参与生命过程它们必须与其他分子相互协作。近年来,AlphaFold 和 RoseTTAFold 等蛋白质结构预测算法,席卷了结构生物学领域。深度学习方法彻底改变了蛋白质结构预测和设计方式,但目前仅限于纯蛋白质系统。问题是,这些模型忽略了许多影响蛋白质结构的化学类型。「例如,许多生物学涉及蛋白质与小分子相互作用。」华盛顿大学教授 David Baker 说。「这是
用基于结构的突变偏好进行蛋白质设计,加州大学、MIT、哈佛医学院团队开发了一种无监督方法
编辑 | 萝卜皮当前最新的蛋白质设计方法,往往依赖于具有多达数百个数百万个参数的大型神经网络,同时并不清楚哪些残基依赖性对于确定蛋白质功能至关重要。加州大学(University of California)、麻省理工学院(Massachusetts Institute of Technology)以及哈佛医学院(Harvard Medical School)的研究人员表明:在不考虑突变相互作用的情况下,单个残基的氨基酸偏好,可以解释 8 个数据集中的大部分甚至有时几乎所有的组合突变效应 (R^2 ~ 78-98%
计算蛋白质工程最新SOTA方法,牛津团队用密码子训练大语言模型
编辑 | 萝卜皮来自深度语言模型的蛋白质表征,已经在计算蛋白质工程的许多任务中表现出最先进的性能。近年来,进展主要集中在参数计数上,最近模型的容量超过了它们所训练的数据集的大小。牛津大学(University of Oxford)的研究人员提出一个替代方向。他们证明,在密码子而不是氨基酸序列上训练的大型语言模型可以提供高质量的表征,并且在各种任务中都优于同类最先进的模型。在某些任务中,例如物种识别、蛋白质和转录本丰度预测等,该团队发现,基于密码子训练的语言模型优于所有其他已发布的蛋白质语言模型,包括一些包含超过 5