当涉及到对过去40亿年来地球上进化的所有蛋白质和酶进行编目时,人类知识几乎没有触及表面。这就是为什么一家名为Basecamp Research的公司正在将图形和人工智能技术结合起来,以扩大人类知识的范围并加速药物发现。
Basecamp Research由Glen Gowers和Oliver Vince于2019年创立,旨在加速药物研究中数据驱动的突破。两位牛津大学博士生物学家对将环境数据引入实验室以促进药物发现方面缺乏进展感到沮丧,因此他们决定成立一家公司来解决这个问题。
这家英国私营公司努力的核心是一个知识图谱,旨在作为自然世界的数字孪生。BaseGraph运行在Neo4j图形数据库上,包含55亿个生物关系,是世界上最大的此类数据库。该公司表示,它收集的数据比所有可比的公共数据库多10倍,并对其进行了结构化,以最大限度地利用其中的背景、多样性和生物信号。
Neo4j的首席技术官Philip Rathle表示,许多制药公司都使用Neo4j进行药物发现。但BaseGraph的独特之处在于,它还记录了它们存在的环境条件,如温度、湿度、土壤化学、pH值、土壤矿物质含量等,这对于理解酶、蛋白质和完整的生物体至关重要。
Rathle说:“据我所知,他们是唯一认识到地球上所有生命中只有一小部分(比如0.01%)被编目的方式可用于发现新药的人。”“他们正在将生态系统中的数据放入一个图表中,将其与微生物学联系起来,然后他们的客户——从事药物开发的公司——利用这些信息更快地开发出更好的药物。”
环境数据
环境数据对于充分了解蛋白质和酶在不同环境中的行为以及最终它们对药物开发的价值至关重要。
例如,Rathle说,如果实验室环境中的ph值相对于自然环境下降了1%,它可能会导致蛋白质以完全不同的方式表现。例如,铁的存在可以区分生物相互作用是否发生。
为了收集这些数据,Basecamp Research与第三方科学家合作,他们进入现场收集这些数据。他们收集的数据来自全球一些最偏远的地方,如亚马逊雨林和南极洲的冰冻沙漠(该公司的名字Basecamp来自Goers和Vince在冰盖上生活时进行的DNA测序实地考察)。
当Basecamp从一些数据中获利时,该公司已承诺将部分收益交给国家公园和其他保护土地的实体。该公司表示,确保其现场供应链数据的完整性至关重要,维护地球上酶、蛋白质和生物生存和进化的野生环境也是如此。
55亿边缘和计数
BaseGraph包含三种类型的数据,包括:环境、地质和化学数据;微生态学、宏基因组学和基因组学;以及深度学习衍生的功能和结构蛋白质特征。
所有这些数据都加载到BaseGraph中,BaseGraph拥有55亿个生物关系,已经是世界上最大的生物数据图。该公司表示,随着新数据的出现,它正以每四周5亿个新数据的速度扩张。
在BaseCamp经过一段时间的技术探索后,决定使用图形数据库。根据Neo4j在YouTube上发布的一份演示文稿,Basecamp Research的数据工程团队负责人Saif Ur-Rehman说:“我的第一反应是‘把所有东西都放在表格里,然后加入’。”
然而,他们很快就遇到了标准数据库技术的极限。Basecamp的首席技术官Phil Lorenz在Neo4j网站上的一篇报道中说:“生命是一个网络,而不是一个列表。”
在选择了Neo4j(市场上使用最频繁、最完善的图形数据库之一)后,Basecamp Research团队开始对他们的数据进行建模。他们使用通过Neo4j图形数据科学(GDS)库提供的图形嵌入来表示蛋白质“不仅通过它们的序列,而且结合了基本的上下文信息,可以显示这些蛋白质将如何相互作用、行为和最终表现,”Neo4j在其报告中说。
Basecamp客户可以通过这种方式存储连接数据,查询图表并发现隐藏的关系,该公司称之为“微生物暗物质”,指的是未被探索的微生物的广阔空间。
输入AI
这已经带来了回报。根据Neo4j的说法,研究人员发现了30倍以上的大丝氨酸重组酶(LSR),这为通过基因编辑创造新疗法开辟了潜力。
另一个成功来自化学制造业,一家价值160亿美元的公司能够利用Neo4j图算法和BaseGraph在短短一个月内优化一种特定的酶,这是该公司两年前进行的工作。
Basecamp Research还将人工智能技术与图形数据库相结合,以推动更多的发现。它正在使用图形数据库中建立的已知交互来训练大型语言模型(LLM),这使其能够生成药物开发的潜在候选者。
该公司发表了一篇关于ZymCTRL或酶控制的论文,这是一种基于酶序列训练的模型,可以根据用户需求产生活性酶。它还发表了关于大型复杂蛋白质结构模型BaseFold和蛋白质功能模型HiFi NN的论文。
在《GEN生物技术》杂志上,Vince、Gowers和Siân McGibbon写道,Basecamp Research已经开始采用一种新模型,该模型能够在不损害伦理的情况下,从自然界中持续生成研究所需的数据。
他们写道:“人工智能在生物技术中的出现为该行业带来了分水岭时刻。”“高质量训练数据的有限可用性已经减缓了创新的步伐。生物技术中新兴的大数据时代为生物经济中利益相关者的商业利益、发展目标和可持续发展目标提供了一个自然的机会。只有发展基于可持续伙伴关系的数据供应链,积极与生物多样性提供者协调激励措施并分享利益,才能满足对大量高质量遗传数据用于训练大型模型的日益增长的需求。”