新型蛋白质大语言模型即将登陆Google Cloud

编辑 | KX9 月 17 日,领先的细胞编程和生物安全平台 Ginkgo Bioworks 公司宣布了两项新产品,将助力制药和生物技术公司更容易开发新药,这是在去年与 Google Cloud 宣布的合作伙伴关系的基础上推出的。与 Google Cloud 合作构建的蛋白质大型语言模型 (LLM),是业内首创之一,它将使个人研究人员和企业公司能够利用 Ginkgo 私人数据的见解开发药物。其次,Ginkgo 正在推出其模型 API,这是一种强大的工具,旨在将生物 AI 模型直接带给机器学习科学家。该 API 现已

图片

编辑 | KX

9 月 17 日,领先的细胞编程和生物安全平台 Ginkgo Bioworks 公司宣布了两项新产品,将助力制药和生物技术公司更容易开发新药,这是在去年与 Google Cloud 宣布的合作伙伴关系的基础上推出的。

与 Google Cloud 合作构建的蛋白质大型语言模型 (LLM),是业内首创之一,它将使个人研究人员和企业公司能够利用 Ginkgo 私人数据的见解开发药物。

其次,Ginkgo 正在推出其模型 API,这是一种强大的工具,旨在将生物 AI 模型直接带给机器学习科学家。该 API 现已在 Ginkgo 网站上公开发布,企业公司很快就能访问基于蛋白质的 LLM Google Cloud 的 Vertex AI Model Garden。

图片

Ginkgo Bioworks 推出基于 Google Cloud 技术构建的新型蛋白质 LLM 和模型 API。

Ginkgo Bioworks 首席执行官 Jason Kelly:「我很高兴看到社区在这些模型和我们的 API 的基础上进行构建。AA-0 是我们发布的第一个基于 Ginkgo 专有数据进行训练的模型,我们将其开放给数据科学家和生物信息学家,以便他们可以在此基础上构建新的模型和应用程序。我们相信,Tokens 的低成本和我们其他对客户友好的条款(例如没有版税),以及我们承诺不重复使用客户数据,将允许用户构建工具,例如调用我们的蛋白质生成 API 的迭代蛋白质设计程序或使用我们的嵌入 API 来计算聚类算法的特征。」

这些新产品展示了 Ginkgo 如何以新的方式支持生命科学行业,帮助他们改善和加速药物开发过程。

面向个人研究人员和企业公司的蛋白质 LLM:该 LLM 和未来的 LLM 基于 Vertex AI 与 Google Cloud Consulting 合作构建,并在 Ginkgo 广泛的专有数据集上进行训练,使公司能够产生新颖的见解并加速新疗法的发现。通过利用人工智能的力量来分析和理解复杂的蛋白质结构和相互作用,研究人员和企业可以简化他们的研究流程,优化先导化合物识别,并最终更快、更有效地将救命的药物推向市场。基于从 Ginkgo 的私人数据中学习的模型,公司可以解锁隐藏的模式和潜在的治疗目标,否则这些模式和目标将难以捉摸。

面向科学家和研究人员的开放 API:借助这种程序员友好的超低成本 API,Ginkgo 正在将其内部开发的 AI 工具提供给任何人。该界面提供了一种简单且可扩展的方式来访问在蛋白质和 DNA 数据上训练的复杂模型,从其第一个版本开始:在专有 Ginkgo 数据集上训练的机器学习模型。

Ginkgo 的第一个模型——ginkgo-AA-0-650m,是一个基于 20 多亿个专有 Ginkgo 蛋白质序列进行训练的大规模模型。

图片

模型详情:https://www.ginkgobioworks.com/2024/09/17/aa-0-protein-llm-technical-review/

Google Cloud 战略产业副总裁 Chris Sakalosky 表示:「Ginkgo 的新蛋白质 LLM 和开放 API 标志着在使先进的 AI 工具可用于药物发现和生物研究方面迈出了重要一步。通过利用 Google Cloud 的基础设施和 AI 功能,Ginkgo 正在帮助企业和个人科学家加速他们的工作并推动生命科学领域的创新。Ginkgo 在使尖端 AI 模型的访问变得民主化方面处于领先地位,为使用 Ginkgo 平台的制药公司增加了价值,并最终帮助人们过上更健康的生活。」

Ginkgo 正在开发多种模型,涵盖语言建模和条件设计扩散等机器学习方法。Ginkgo 的第一个蛋白质语言模型版本将支持两种用例:

通过掩码语言建模生成:给定带有一个或多个 <mask> 标记的氨基酸序列,模型将完成该序列。

嵌入计算:计算训练模型的最终隐藏层,以提取下游任务的宝贵表示。首先,Ginkgo 的模型返回长度轴上的平均池化表示。

在接下来的一年里,Ginkgo 将推出更多模型并扩展 API 的功能,构建一套强大的工具,让科研人员能够使用最新的机器学习方法解决药物发现、合成生物学、基因组学等领域的复杂问题。

Ginkgo AI 总经理 Ankit Gupta 说:「灵活性就是一切。除了我们的第一个专有模型(利用 Ginkgo 的独特数据集)之外,您还可以访问 ESM2 等公开可用的模型。这意味着您可以通过一个简化的平台探索和试验不同的方法。我们还致力于让高级机器学习工具变得触手可及,这就是我们的 API 提供具有竞争力的价格和免费套餐的原因。

我们已经制定了成本结构,让您可以轻松参与、试验并获得预测,而不必担心高昂的费用。我们的初始模型将有一个免费套餐,我们的介绍价格约为 0.18 美元/million tokens。这意味着对于含有约 500 种氨基酸的蛋白质,用户应该能够以大约 10 美分的价格获得 2000 个序列的预测。在生成生物学时代,工程师一次设计数千到数百万个序列,我们希望通过巨大的计算规模来实现它们。」

图片

关于 Ginkgo Bioworks

Ginkgo Bioworks 是领先的细胞编程水平平台,提供灵活的端到端服务,解决食品和农业、制药、工业和特种化学品等不同市场组织面临的挑战。Ginkgo Biosecurity 正在构建和部署全球领导者预测、检测和应对各种生物威胁所需的下一代基础设施和技术。

Ginkgo Bioworks 公司官网:https://www.ginkgobioworks.com/

参考内容:https://finance.yahoo.com/news/ginkgo-bioworks-launches-protein-llm-120100733.html

相关资讯

南开&山大&北理工团队开发trRosettaRNA:利用Transformer网络自动预测RNA 3D结构

编辑 | 萝卜皮RNA 3D 结构预测是一个长期存在的挑战。受最近蛋白质结构预测领域突破的启发,南开大学、山东大学以及北京理工大学的研究团队开发了 trRosettaRNA,这是一种基于深度学习的自动化 RNA 3D 结构预测方法。trRosettaRNA 流程包括两个主要步骤:通过transformer网络进行 1D 和 2D 几何形状预测;以及通过能量最小化进行的 3D 结构折叠。基准测试表明 trRosettaRNA 优于传统的自动化方法。在 CASP15 和 RNA-Puzzles 实验的盲测中,对天然 R

Nat. Commun.|人类水平的准确性,哈佛医学院团队使用机器学习,从空间蛋白质组数据中快速、精确地识别细胞类型

编辑 | 萝卜皮高度多重蛋白质成像正在成为分析细胞和组织内天然环境中蛋白质分布的有效技术。然而,现有的利用高复杂空间蛋白质组学数据的细胞注释方法是资源密集型的,并且需要迭代的专家输入,从而限制了它们对于广泛数据集的可扩展性和实用性。哈佛医学院(Harvard Medical School)团队引入了 MAPS(Machine learning for Analysis of Proteomics in Spatial biology),这是一种机器学习方法,有助于从空间蛋白质组数据中快速、精确地识别细胞类型,并具有

AI再夺诺奖!2024诺贝尔化学奖授予蛋白质计算领域三位科学家

编辑 | ScienceAI2024 年 10 月 9 日北京时间 17 时 45 分许,瑞典皇家科学院在斯德哥尔摩宣布,将 2024 年诺贝尔化学奖的一半授予华盛顿大学教授大卫·贝克(David Baker),以表彰他在「计算蛋白质设计」方面的贡献,并将另一半授予Google DeepMind 的科学家戴密斯·哈萨比斯(Demis Hassabis)和约翰·M·詹伯(John M. Jumper),以表彰他们在「蛋白质结构预测」方面的贡献。大卫·贝克(David Baker)华盛顿大学蛋白质设计研究所所长,霍华德