准确性比AlphaFold2高6倍,Basecamp推出AI模型BaseFold,蛋白构造预计新突破

编辑 | 凯霞2018 年,DeepMind 发布了蛋白质预计算法 AlphaFold,席卷整个生物学界。AlphaFold 可以准确预计蛋白质构造。了解蛋白质如何相互作用是了解生物技术领域的关键,从如何使食物味道更好,到如何使农作物在气候变化中生存,再到治愈癌症。自发布以来,AlphaFold、AlphaFold2 及其在过去几年中生成的数亿个蛋白质构造,已成为世界各地生物技术钻研职员工具包的重要组成部分。尽管 AlphaFold 推动了行业的发展,但它也有其自身的局限性。钻研职员距离合成生物学的圣杯还有很长的路

准确性比AlphaFold2高6倍,Basecamp推出AI模型BaseFold,蛋白构造预计新突破

编辑 | 凯霞

2018 年,DeepMind 发布了蛋白质预计算法 AlphaFold,席卷整个生物学界。AlphaFold 可以准确预计蛋白质构造。

了解蛋白质如何相互作用是了解生物技术领域的关键,从如何使食物味道更好,到如何使农作物在气候变化中生存,再到治愈癌症。

自发布以来,AlphaFold、AlphaFold2 及其在过去几年中生成的数亿个蛋白质构造,已成为世界各地生物技术钻研职员工具包的重要组成部分。

尽管 AlphaFold 推动了行业的发展,但它也有其自身的局限性。钻研职员距离合成生物学的圣杯还有很长的路要走:AI 模型可以采用所需的蛋白质形状,并通过找到与之相互作用的正确化学物质,或完全安排一种自然界中找不到的蛋白质来弄清楚如何创造它 。

准确性比AlphaFold2高6倍,Basecamp推出AI模型BaseFold,蛋白构造预计新突破

3 月 12 日,基于 AI 的蛋白质和其他生物系统安排领域的全球领导者 Basecamp Research,宣布推出其新的深度学习模型 BaseFold。

与其他 AI 驱动的模型相比,该模型可以比其他 AI 工具更准确地预计大型繁杂蛋白质的 3D 构造,包括行业黄金标准 AlphaFold2。

Basecamp 表示,其模型 BaseFold 在更广泛的数据集上从事训练,可以形成比 AlphaFold2 更准确的蛋白质构造预计。

BaseFold 利用 Basecamp 专门建立的基础数据集,显著提高了大型繁杂蛋白质构造和小份子相互作用的预计精度,其准确性比 AlphaFold2 高出六倍,并将小份子对接提高了三倍。

对更大、更繁杂的蛋白质从事更可靠的 3D 构造预计,将大大加速基于人工智能的药物发觉钻研。

此外,该公司还宣布将与 NVIDIA 合作,为 NVIDIA BioNeMo(一个用于药物发觉的生成式 AI 平台)优化和生产 BaseFold。

准确性比AlphaFold2高6倍,Basecamp推出AI模型BaseFold,蛋白构造预计新突破

Basecamp 首席技术官 Phil Lorenz 博士表示:

「我们重新安排和重建了整个数据采集流程,使我们成为第一支采集和注释生物多样性数据的团队,其质量与人类临床遗传数据相同——所有这些都是专为 AI 时代而安排的。BaseGraph 是同类中最多样化、最全面的数据集,是我们人 AI 进步的核心驱动力。我们的数据库每周都在增长,因此,BaseFold 也每周都在改进。」

Basecamp 联合创始人兼首席执行官 Glen Gowers 说:

「AlphaFold 是药物发觉中最有用的人工智能工具之一。它使钻研职员可以更好地预计药物如何与体内蛋白质相互作用,从而减少数年的工作。但是,AlphaFold 仍然有很大的改进空间,特别是当用于预计大型、繁杂和代表性不足的蛋白质时,这些蛋白质通常对于新疗法的开发最为关键。即使只有几个百分点的误差也会对准确预计蛋白质-份子相互作用形成重大影响。」

Gowers 补充道,「我们知道,就 AI 而言,最好的数据会形成最好的结果,而且很高兴知道我们建立的新的、专门建立的基础数据集已经对药物开发和人类健康形成了广泛的影响,不过,我们并没有就此止步——我们正在继续扩大我们的生物多样性合作伙伴关系,并将这种数据优势应用于越来越多的生物 AI 模型。」

准确性比AlphaFold2高6倍,Basecamp推出AI模型BaseFold,蛋白构造预计新突破

Glen Gowers,Basecamp Research 首席执行官兼联合创始人。

BaseFold:通过全球宏基因组和生物数据供应链提高 AlphaFold2 性能

该公司在预印本平台 bioRxiv 上发表了一篇文章。Basecamp 钻研职员提出了一种以数据为中心的方法来改进生物学中的深度学习模型。

论文要点:

Basecamp Research 专门建立的基础数据集使 BaseFold 将 AlphaFold2 预计构造的准确性提高了 6 倍。

该团队证明小份子与蛋白质靶标相互作用的建模准确性提高了 3 倍。

BaseFold 为比以往更大、更繁杂的蛋白质解锁了更可靠的 3D 构造预计和小份子对接,特别是那些在公共数据集中代表性不足的蛋白质。

这一步骤的变化将大大加速药物发觉工作,了解这些相互作用将允许使用人工智能开发更先进的治疗份子。

准确性比AlphaFold2高6倍,Basecamp推出AI模型BaseFold,蛋白构造预计新突破

论文链接:https://doi.org/10.1101/2024.03.06.583325

Basecamp 与覆盖全球 50% 生物群落的五大洲自然公园和生物多样性利益相关者建立了合作伙伴关系,建立了全球宏基因组和生物数据供应链。

与现有公共数据相比,该数据集中捕获的蛋白质序列多样性更高,在 AlphaFold2 的推理过程中通过 MSA 补充将这一数据优势应用于蛋白质折叠问题。BaseFold 在 CASP15 和 CAMEO 的目标上超过了传统的 AlphaFold2 性能,其中 60% 显示 pLDDT 得分有所提高,RMSD 值降低了高达 80%。

最重要的是,预计构造质量的提高可以形成更好的对接结果。通过与利益相关者分享这些数据的来源,Basecamp 提出了一种同时改进生物学深度学习模型和激励保护地球生物多样性的方法。

准确性比AlphaFold2高6倍,Basecamp推出AI模型BaseFold,蛋白构造预计新突破

访问和组织来自全球宏基因组和生物数据供应链的数据的策略。(来源:论文)

Basecamp 不仅仅希望成为一家蛋白质构造公司

据 Pitchbook 称,迄今为止,该公司共融资 2,500 万美元,估值为 7,100 万美元。

虽然这对于这家成立四年的初创公司来说是一个重要的里程碑,但 29 岁的 Gowers 相信,这款软件让他离最终目标又近了一步:可以安排蛋白质——甚至新的有机体——来满足客户的需求。「我们不仅仅希望成为一家蛋白质构造公司,」他告诉福布斯。「我们将其广泛应用于任何生成或预计任务。因此,诸如蛋白质功能适应、新蛋白质的形成,甚至新基因组的形成等。」

Gowers 于 2019 年萌生了创建 Basecamp 的想法,当时他和一些钻研职员在冰岛度过了一个月的脱离电网生活。他们花了很多时间对一组特殊微生物的基因组从事测序,这些微生物已经进化到可以在极热和极冷的情况下生存,因为它们生活在冰和温泉附近。

他说,他的团队在一个月内采集到的大部分数据都是「未知蛋白质、未知来源的未知序列的暗物质」。这些数据帮助他认识到,AlphaFold 所训练的公开基因组数据集「相当于大西洋已知存在的物种的五滴水」。

准确性比AlphaFold2高6倍,Basecamp推出AI模型BaseFold,蛋白构造预计新突破

论文链接:https://www.mdpi.com/2073-4425/10/11/902

在预计这些生命建立模块如何折叠时,蛋白质的大量数据非常重要,因为有太多的变量可以决定它们的行为方式——数量如此之多,几乎不可能直接计算,因为数学太繁杂了。但是,如果机器学习模型在数十亿种不同的构造上从事训练,就会出现模式,使其可以更准确地预计给定蛋白质将如何折叠。

可以把它想象成过去几年出现的人工智能聊天机器人。用人类语言的一小部分(例如 Twitter)训练机器人,你会发觉它会像微软在 2016 年所做的那样,变成一个疯狂的疯子。相比之下,ChatGPT 及其竞争对手在互联网上更大、更多样化的部分从事了训练,从而使机器人可以对问题形成更好的结果,并且不太可能侮辱你。同样,采集更大、更多样化的基因组数据可以更好地预计蛋白质如何折叠。

这就是 Basecamp 一直致力于使其模型训练的蛋白质数据集多样化的原因。自 2020 年成立以来,Basecamp 一直与世界各地的钻研职员合作,对来自世界各地数千万种微生物、植物和动物的高质量基因组信息从事测序。反过来,这些钻研职员从 Basecamp 的数据收入中获得版税。

除了对这些生物体的 DNA 从事测序外,钻研职员还采集了背景信息,提供了更多数据,人工智能可以使用这些数据来帮助了解蛋白质折叠方式的原因。该公司 31 岁的首席技术官 Phillip Lorenz 表示:「我们基地的每一个条目都会采集数百个额外维度。」这包括当地温度、pH 值、发觉水体生物的盐度、这些生物体可获得的光照程度等等 。他补充说,发觉这些样本的地理位置也极其多样化,从匈牙利的洞穴到深海喷口。「我们去过世界各地的所有生物群落,从火山岛到南极洲。」

Gowers 告诉《福布斯》,Basecamp 已经通过使用其预计模型解决客户问题来形成收入(他拒绝透露数据)。例如,它正在与英国的 Colorfix 合作安排新的蛋白质,可用于在不使用刺激性化学品的情况下对织物从事染色。它还帮助康涅狄格州的初创公司 Protein Evolution 发觉可以分解塑料的新蛋白质,以便它们可以回收利用。此外,Gowers 希望利用其计算能力与制药公司合作开发新药。

尽管如此,Gowers 承认公司不可能永远保持斗志旺盛的状态。为了与资本更雄厚的竞争对手竞争,Basecamp 计划在不久的将来筹集更多投资。「训练新模型和建立新架构,特别是当数据非常大时,是一项极其昂贵的业务。」他说。

关于 Basecamp Research

Basecamp Research 是为基于人工智能的生物系统安排绘制生物多样性地图的市场领导者。其使用 BaseGraph™ 为合作伙伴的精确工业、治疗或诊断应用匹配和提炼新型蛋白质,BaseGraph™ 是新一代人工智能安排,由全球遗传多样性的第一个高分辨率地图提供支持。

了解每种蛋白质的完整遗传、进化和环境背景使 Basecamp Research 可以为特定应用安排定制蛋白质,而无需从事昂贵且耗时的定向进化活动。Basecamp 是一支由探险家、科学家和政策专家组成的团队,保护大自然的多样性并从中学习,同时为最需要的人提供改变生活的突破。

Basecamp Research 公司官网:https://www.basecamp-research.com/

参考内容:

https://www.forbes.com/sites/alexknapp/2024/03/11/basecamp-research-protein-folding-ai-deepmind-alphafold/?ss=ai&sh=41cabf7fc84a

https://www.biospace.com/article/releases/basecamp-research-launches-basefold-a-breakthrough-in-3d-protein-structure-prediction-of-large-complex-protein-structures/?keywords=AI

给TA打赏
共{{data.count}}人
人已打赏
理论

如何把大量物理学问塞给AI?EIT和北大团队提出「规定重要性」概念

2024-3-13 16:33:00

理论

Nature子刊 | KAUST团队训练大谈话模型,进行作为相似语义包含的蛋白质功效预计

2024-3-15 15:13:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索