准确性比AlphaFold2高6倍,Basecamp推出AI模型BaseFold,蛋白结构预测新突破

编辑 | 凯霞2018 年,DeepMind 发布了蛋白质预测算法 AlphaFold,席卷整个生物学界。AlphaFold 能够准确预测蛋白质结构。了解蛋白质如何相互作用是了解生物技术领域的关键,从如何使食物味道更好,到如何使农作物在气候变化中生存,再到治愈癌症。自发布以来,AlphaFold、AlphaFold2 及其在过去几年中生成的数亿个蛋白质结构,已成为世界各地生物技术研究人员工具包的重要组成部分。尽管 AlphaFold 推动了行业的发展,但它也有其自身的局限性。研究人员距离合成生物学的圣杯还有很长的路

图片

编辑 | 凯霞

2018 年,DeepMind 发布了蛋白质预测算法 AlphaFold,席卷整个生物学界。AlphaFold 能够准确预测蛋白质结构。

了解蛋白质如何相互作用是了解生物技术领域的关键,从如何使食物味道更好,到如何使农作物在气候变化中生存,再到治愈癌症。

自发布以来,AlphaFold、AlphaFold2 及其在过去几年中生成的数亿个蛋白质结构,已成为世界各地生物技术研究人员工具包的重要组成部分。

尽管 AlphaFold 推动了行业的发展,但它也有其自身的局限性。研究人员距离合成生物学的圣杯还有很长的路要走:AI 模型可以采用所需的蛋白质形状,并通过找到与之相互作用的正确化学物质,或完全设计一种自然界中找不到的蛋白质来弄清楚如何创造它 。

图片

3 月 12 日,基于 AI 的蛋白质和其他生物系统设计领域的全球领导者 Basecamp Research,宣布推出其新的深度学习模型 BaseFold。

与其他 AI 驱动的模型相比,该模型可以比其他 AI 工具更准确地预测大型复杂蛋白质的 3D 结构,包括行业黄金标准 AlphaFold2。

Basecamp 表示,其模型 BaseFold 在更广泛的数据集上进行训练,可以产生比 AlphaFold2 更准确的蛋白质结构预测。

BaseFold 利用 Basecamp 专门构建的基础数据集,显著提高了大型复杂蛋白质结构和小分子相互作用的预测精度,其准确性比 AlphaFold2 高出六倍,并将小分子对接提高了三倍。

对更大、更复杂的蛋白质进行更可靠的 3D 结构预测,将大大加速基于人工智能的药物发现研究。

此外,该公司还宣布将与 NVIDIA 合作,为 NVIDIA BioNeMo(一个用于药物发现的生成式 AI 平台)优化和生产 BaseFold。

图片

Basecamp 首席技术官 Phil Lorenz 博士表示:

「我们重新设计和重建了整个数据采集流程,使我们成为第一支收集和注释生物多样性数据的团队,其质量与人类临床遗传数据相同——所有这些都是专为 AI 时代而设计的。BaseGraph 是同类中最多样化、最全面的数据集,是我们人 AI 进步的核心驱动力。我们的数据库每周都在增长,因此,BaseFold 也每周都在改进。」

Basecamp 联合创始人兼首席执行官 Glen Gowers 说:

「AlphaFold 是药物发现中最有用的人工智能工具之一。它使研究人员能够更好地预测药物如何与体内蛋白质相互作用,从而减少数年的工作。但是,AlphaFold 仍然有很大的改进空间,特别是当用于预测大型、复杂和代表性不足的蛋白质时,这些蛋白质通常对于新疗法的开发最为关键。即使只有几个百分点的误差也会对准确预测蛋白质-分子相互作用产生重大影响。」

Gowers 补充道,「我们知道,就 AI 而言,最好的数据会产生最好的结果,而且很高兴知道我们构建的新的、专门构建的基础数据集已经对药物开发和人类健康产生了广泛的影响,不过,我们并没有就此止步——我们正在继续扩大我们的生物多样性合作伙伴关系,并将这种数据优势应用于越来越多的生物 AI 模型。」

图片

Glen Gowers,Basecamp Research 首席执行官兼联合创始人。

BaseFold:通过全球宏基因组和生物数据供应链提高 AlphaFold2 性能

该公司在预印本平台 bioRxiv 上发表了一篇文章。Basecamp 研究人员提出了一种以数据为中心的方法来改进生物学中的深度学习模型。

论文要点:

Basecamp Research 专门构建的基础数据集使 BaseFold 将 AlphaFold2 预测结构的准确性提高了 6 倍。

该团队证明小分子与蛋白质靶标相互作用的建模准确性提高了 3 倍。

BaseFold 为比以往更大、更复杂的蛋白质解锁了更可靠的 3D 结构预测和小分子对接,特别是那些在公共数据集中代表性不足的蛋白质。

这一步骤的变化将大大加速药物发现工作,了解这些相互作用将允许使用人工智能开发更先进的治疗分子。

图片

论文链接:https://doi.org/10.1101/2024.03.06.583325

Basecamp 与覆盖全球 50% 生物群落的五大洲自然公园和生物多样性利益相关者建立了合作伙伴关系,建立了全球宏基因组和生物数据供应链。

与现有公共数据相比,该数据集中捕获的蛋白质序列多样性更高,在 AlphaFold2 的推理过程中通过 MSA 补充将这一数据优势应用于蛋白质折叠问题。BaseFold 在 CASP15 和 CAMEO 的目标上超过了传统的 AlphaFold2 性能,其中 60% 显示 pLDDT 得分有所提高,RMSD 值降低了高达 80%。

最重要的是,预测结构质量的提高可以产生更好的对接结果。通过与利益相关者分享这些数据的来源,Basecamp 提出了一种同时改进生物学深度学习模型和激励保护地球生物多样性的方法。

图片

访问和组织来自全球宏基因组和生物数据供应链的数据的策略。(来源:论文)

Basecamp 不仅仅希望成为一家蛋白质结构公司

据 Pitchbook 称,迄今为止,该公司共融资 2,500 万美元,估值为 7,100 万美元。

虽然这对于这家成立四年的初创公司来说是一个重要的里程碑,但 29 岁的 Gowers 相信,这款软件让他离最终目标又近了一步:能够设计蛋白质——甚至新的有机体——来满足客户的需求。「我们不仅仅希望成为一家蛋白质结构公司,」他告诉福布斯。「我们将其广泛应用于任何生成或预测任务。因此,诸如蛋白质功能适应、新蛋白质的产生,甚至新基因组的产生等。」

Gowers 于 2019 年萌生了创建 Basecamp 的想法,当时他和一些研究人员在冰岛度过了一个月的脱离电网生活。他们花了很多时间对一组特殊微生物的基因组进行测序,这些微生物已经进化到能够在极热和极冷的情况下生存,因为它们生活在冰和温泉附近。

他说,他的团队在一个月内收集到的大部分数据都是「未知蛋白质、未知来源的未知序列的暗物质」。这些数据帮助他认识到,AlphaFold 所训练的公开基因组数据集「相当于大西洋已知存在的物种的五滴水」。

图片

论文链接:https://www.mdpi.com/2073-4425/10/11/902

在预测这些生命构建模块如何折叠时,蛋白质的大量数据非常重要,因为有太多的变量可以决定它们的行为方式——数量如此之多,几乎不可能直接计算,因为数学太复杂了。但是,如果机器学习模型在数十亿种不同的结构上进行训练,就会出现模式,使其能够更准确地预测给定蛋白质将如何折叠。

可以把它想象成过去几年出现的人工智能聊天机器人。用人类语言的一小部分(例如 Twitter)训练机器人,你会发现它会像微软在 2016 年所做的那样,变成一个疯狂的疯子。相比之下,ChatGPT 及其竞争对手在互联网上更大、更多样化的部分进行了训练,从而使机器人能够对问题产生更好的结果,并且不太可能侮辱你。同样,收集更大、更多样化的基因组数据可以更好地预测蛋白质如何折叠。

这就是 Basecamp 一直致力于使其模型训练的蛋白质数据集多样化的原因。自 2020 年成立以来,Basecamp 一直与世界各地的研究人员合作,对来自世界各地数千万种微生物、植物和动物的高质量基因组信息进行测序。反过来,这些研究人员从 Basecamp 的数据收入中获得版税。

除了对这些生物体的 DNA 进行测序外,研究人员还收集了背景信息,提供了更多数据,人工智能可以使用这些数据来帮助了解蛋白质折叠方式的原因。该公司 31 岁的首席技术官 Phillip Lorenz 表示:「我们基地的每一个条目都会收集数百个额外维度。」这包括当地温度、pH 值、发现水体生物的盐度、这些生物体可获得的光照程度等等 。他补充说,发现这些样本的地理位置也极其多样化,从匈牙利的洞穴到深海喷口。「我们去过世界各地的所有生物群落,从火山岛到南极洲。」

Gowers 告诉《福布斯》,Basecamp 已经通过使用其预测模型解决客户问题来产生收入(他拒绝透露数据)。例如,它正在与英国的 Colorfix 合作设计新的蛋白质,可用于在不使用刺激性化学品的情况下对织物进行染色。它还帮助康涅狄格州的初创公司 Protein Evolution 发现可以分解塑料的新蛋白质,以便它们可以回收利用。此外,Gowers 希望利用其计算能力与制药公司合作开发新药。

尽管如此,Gowers 承认公司不可能永远保持斗志旺盛的状态。为了与资本更雄厚的竞争对手竞争,Basecamp 计划在不久的将来筹集更多投资。「训练新模型和构建新架构,特别是当数据非常大时,是一项极其昂贵的业务。」他说。

关于 Basecamp Research

Basecamp Research 是为基于人工智能的生物系统设计绘制生物多样性地图的市场领导者。其使用 BaseGraph™ 为合作伙伴的精确工业、治疗或诊断应用匹配和提炼新型蛋白质,BaseGraph™ 是新一代人工智能设计,由全球遗传多样性的第一个高分辨率地图提供支持。

了解每种蛋白质的完整遗传、进化和环境背景使 Basecamp Research 能够为特定应用设计定制蛋白质,而无需进行昂贵且耗时的定向进化活动。Basecamp 是一支由探险家、科学家和政策专家组成的团队,保护大自然的多样性并从中学习,同时为最需要的人提供改变生活的突破。

Basecamp Research 公司官网:https://www.basecamp-research.com/

参考内容:

https://www.forbes.com/sites/alexknapp/2024/03/11/basecamp-research-protein-folding-ai-deepmind-alphafold/?ss=ai&sh=41cabf7fc84a

https://www.biospace.com/article/releases/basecamp-research-launches-basefold-a-breakthrough-in-3d-protein-structure-prediction-of-large-complex-protein-structures/?keywords=AI

相关资讯

ScienceAI发展前瞻:AI与科学计算的双向影响

「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI技术」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。

多伦多大学团队使用AlphaFold获得对蛋白质结构的新见解

编辑 | 萝卜皮AlphaFold 蛋白质结构数据库包含数百万种蛋白质的预测结构。对于大多数含有本质无序区域 (IDR) 的人类蛋白质,这些区域不采用稳定的结构,通常认为这些区域具有较低的 AlphaFold2 置信度分数,反映了低置信度的结构预测。多伦多大学(University of Toronto)的研究团队表明 AlphaFold2 为近 15% 的人类 IDR 分配了可信结构。通过与已知条件折叠(即在结合或其他特定条件下)的 IDR 子集的实验 NMR 数据进行比较,研究人员发现 AlphaFold2 通

如何利用革命性的蛋白质结构工具来发现药物?AlphaFold 发现了数千种可能的致幻剂

编辑 | XAlphaFold2 (AF2)和 RosettaFold 极大地扩展了可用于基于结构的配体发现的结构的数量,尽管它们在这一目标中的直接作用提出了质疑。1 月 18 日,Nature 发表题为《AlphaFold found thousands of possible psychedelics. Will its predictions help drug discovery?》的新闻报道。文章地址: AlphaFold 识别出数十万种潜在的新型迷幻(psychedelic)分子,这可能有助于开发新型抗