90%成功响应率,整合约9000个样本,统合癌症蛋白质组学的LLM驱动平台

编辑丨&功能蛋白质组学为癌症机制提供了关键见解,有助于发现新的生物标志物和治疗靶点。 为了充分利用他们整合的将近 500 份高质量抗体的精选组合,美国德克萨斯大学决定采用 LLM 驱动来使资源更高效。 他们推出了 DrBioRight 2.0,这是一个由最先进的大型语言模型提供支持的直观生物信息学平台。

图片

编辑丨&

功能蛋白质组学为癌症机制提供了关键见解,有助于发现新的生物标志物和治疗靶点。为了充分利用他们整合的将近 500 份高质量抗体的精选组合,美国德克萨斯大学决定采用 LLM 驱动来使资源更高效。

他们推出了 DrBioRight 2.0,这是一个由最先进的大型语言模型提供支持的直观生物信息学平台。使研究人员能够探索以蛋白质为中心的癌症组学数据,进行高级分析,可视化结果,并使用自然语言参与交互式讨论。

通过简化复杂的蛋白质基因组学分析,该工具可加速将大规模功能蛋白质组学数据转化为有意义的生物医学见解。

该研究以「DrBioRight 2.0: an LLM-powered bioinformatics chatbot for large-scale cancer functional proteomics analysis」为题,于 2025 年 3 月 6 日刊登于《Nature Communications》。

图片

DrBioRight 2.0

在过去的十年中,癌症组学数据的生成取得了显著进展,特别是在患者肿瘤的 DNA 和 RNA 水平上,都产生了具有里程碑意义的举措。

然而,两个显著的挑战限制了 TCPA 的直接效用。首先,以前的 RPPA 数据对蛋白质标志物的覆盖范围有限。其次,数据门户仅提供几个预定义的分析模块,对于用户定义的分析几乎没有灵活性。

团队将 RPPA 蛋白检测组合扩展到大约 500 种高质量抗体,为全面、高质量的泛癌功能蛋白质组学纲要整合了来自 TCGA 和 CCLE 样本的数据。

他们推出的 DrBioRight 2.0,旨在降低技术门槛,实现复杂组学数据的无缝分析。具有不同背景的用户可以通过直观的自然语言查询轻松无缝地访问、分析和可视化数据。

图 1

图 1:DrBioRight 2.0 中的数据集成工作流程和关键创新概述。(图源:论文)

RPPA500 蛋白检测组合全面涵盖了所有 50 个标志性基因集,与之前的蛋白质组合相比,这些基因集中的总蛋白质数量显着增加了 115%,PTM 蛋白的数量增加了 67%,突出了在蛋白质水平上理解癌症生物学的能力显着提高。

在这个平台中,团队首先生成了一个统一的多组学数据集,基于 DNA、RNA 和 RPPA500 的蛋白质水平的分子分析数据,以及细胞系表型数据集,超过 10 亿个数据值采用 HDF5 格式在 I/O 高效的基于云的服务器上托管的 No-SQL 数据库中进行整理和重组。

平台的功能性

DrBioRight 具有传统分析平台所不具备的多项功能,包括自然语言理解、透明度和可重复性以及用户友好性。与 TCPA 之前的分析模块相比,DrBioRight 通过提供多功能分析而与众不同。

DrBioRight 的另一个值得注意的特点是它在分析驱动问题和一般问题之间无缝过渡。它还允许用户以 R markdown 文件的形式下载相应的项目报告,并在 RStudio 中本地运行以重现分析。

这些功能共同将 DrBioRight 定位为一种非常方便的分析工具,为数据分析提供无与伦比的灵活性和定制性。

图 2

图 2:DrBioRight 2.0 平台概述。(图源:论文)

为了最大限度地提高 DrBioRight 2.0 的性能,团队实施了尖端技术来增强 LLM。他们整合了一个多代理工作流程,以使用图架构构建分层代理团队。

每个团队由一个或多个代理程序或工具组成。相关性分析工具执行特征之间的关联分析,包括蛋白质表达、突变和临床变量。主管将特定于团队的问题路由到适当的工具,以执行任务和分析结果。

为了微调 LLM,他们还请专家审查策划和标准化了数千个用户查询,创建了训练和测试数据集。基于微调模型,开发了一款评估系统允许领域 AI 专家相应进行排名。

当使用 LangGraph 在基于图的工作流程下对同一组问题采用微调模型时,该平台取得了令人印象深刻的 90% 的成功率。

图 3

图 3:微调过程和模型评估概述。(图源:论文)

高效高质的智能平台

DrBioRight 2.0 代表了研究人员在癌症蛋白质组学数据方面的重大进步,实现了三个关键里程碑。它拓宽了最常用的癌症患者和细胞系队列的蛋白质空间,为生物医学研究人员提供了独特而有价值的资源。

由 LLM 提供支持的聊天机器人 DrBioRight 提供了一个直观、多功能且高度可定制的平台,有效降低了进入门槛,使来自不同背景的研究人员能够在没有广泛领域知识的情况下有效地分析数据。

数据资源和 LLM 之间的深度集成显着放大了此类资源的效用。这种集成不仅提高了数据的可访问性,加快了用户——开发人员的反馈循环。

与在开发和迭代过程中通常需要大量集成和协调工作的传统工具相比,DrBioRight 通过其全面的数据资源和高级 LLM 的独特组合巧妙地解决了这些挑战。

原文链接:https://www.nature.com/articles/s41467-025-57430-4

数据链接:https://drbioright.org/resources/

相关代码:https://drbioright.org

相关资讯

AI赋能蛋白质研究:SaprotHub让蛋白质AI模型训练和调用不再有门槛!

编辑 | ScienceAI近年来,AI 技术在蛋白质研究领域发挥了越来越重要的作用。 从 AlphaFold2 在结构预测任务上的脱颖而出,到各类蛋白质语言模型(PLMs)在功能预测方面的重大进展,生物研究者们可以利用各式各样的 AI 模型来辅助他们的研究。 然而,随着模型变得越来越复杂,如何训练和调用这些 AI 模型对于缺乏机器学习专业知识的研究者来说是一件非常具有挑战的任务,也因此限制了 AI 技术在实际研究中的应用。

Nature报导:研究人员如何使用 AI?科学领域利弊调查分析

编辑 | matrix人工智能正在重塑科研领域。 根据出版公司 Wiley 最新发布的一项大规模调查显示,研究人员普遍认为在未来两年内,AI 工具将在学术研究和出版领域获得广泛接受。 这项调查涵盖了来自 70 多个国家的近 5000 名研究人员,深入探讨了他们对生成式 AI 工具的使用现状和未来展望。

AI伪造论文渗透学术圈:Google Scholar成虚假科学温床,如何应对?

编辑 | 1984随着生成式 AI 技术的普及,学术界正面临着一个新的挑战:越来越多疑似由 AI 生成的研究论文正在渗透到学术期刊、档案库和知识库中。 这些论文通常借助 ChatGPT 等普及型 AI 应用来模仿学术写作风格,其危害不容忽视。 作为广受欢迎的学术搜索引擎,Google Scholar 在展示搜索结果时,并未区分这些可疑论文与经过严格质量把关的研究成果。