无缝集成知识图谱,开源Python框架BioChatter降低LLM生物医学使用门槛

编辑丨coisini大型语言模型(LLMs)已经改变了人们的工作方式,从支持内容创作、编程到改进搜索引擎等。 然而,LLMs 在透明度、可重复性和定制化方面的不足仍然是一个挑战,限制了它们在生物医学研究中的广泛应用。 对生物医学研究人员来说,针对特定研究问题优化 LLMs 可能是一项艰巨的任务,因为这需要编程技能和机器学习专业知识。

图片

编辑丨coisini

大型语言模型(LLMs)已经改变了人们的工作方式,从支持内容创作、编程到改进搜索引擎等。然而,LLMs 在透明度、可重复性和定制化方面的不足仍然是一个挑战,限制了它们在生物医学研究中的广泛应用。

对生物医学研究人员来说,针对特定研究问题优化 LLMs 可能是一项艰巨的任务,因为这需要编程技能和机器学习专业知识。这些障碍减少了许多研究任务中 LLMs 的采用。

为了克服这些限制,最近海德堡大学、欧洲生物信息研究所(EMBL-EBI)等机构发表在《Nature Biotechnology》杂志上的一项新研究提出了 BioChatter。BioChatter 旨在通过提供一个开放、透明的开源 Python 框架,来降低生物医学研究人员使用 LLMs 的门槛。该框架可以适应不同的研究需求,将帮助科学家专注于他们的研究,将技术复杂性交给平台处理。

图片

  • 论文地址:https://www.nature.com/articles/s41587-024-02534-3

  • 项目地址:https://github.com/biocypher/biochatter

与生物医学知识图谱无缝集成的开源框架

BioChatter 可以适应特定的研究领域,从生物医学数据库和文献中提取数据。此外,通过 BioChatter 的 API 调用功能,指导 LLMs 使用外部软件可以实现对最新信息的实时访问,并与生物信息学工具集成。

BioChatter 的一个关键特性是其能够与 BioCypher(面向生命科学研究设计的知识图谱构建框架)构建的知识图谱高度集成 —— 这些图谱链接了生物医学数据,如基因突变、药物 - 疾病关联和其他临床信息,旨在帮助研究人员分析复杂的数据集,以识别疾病中的基因变异或理解药物机制。

BioChatter 提供了一个易于使用的接口,通过直观的 API 与 LLMs 及辅助技术进行交互,其功能可以集成到任意数量的用户界面中,例如 Web 应用程序、命令行界面或 Jupyter 笔记本。

图片

图注:BioChatter 框架架构。

BioChatter 框架设计为模块化结构:其任何组件都可以与其他实现进行交换。BioChatter 的功能包括:

  • 与由提供商(如 OpenAI)托管的大型语言模型(LLMs)以及本地部署的开源模型进行基本的问答交互。

  • 可复现的提示工程(prompt engineering),以引导 LLM 完成特定任务或行为。

  • 知识图谱(KG)查询,并自动集成在 BioCypher 框架中创建的任何知识图谱。

  • 检索增强生成(RAG):利用用户提供的文献向量数据库嵌入,增强生成内容的准确性和相关性。  

  • 模型链式调用:通过 LangChain 框架,在单一对话中协调多个 LLM 及其他模型,实现复杂的交互和任务执行。  

  • LLM 响应的真实性核查:使用第二个 LLM 对第一个 LLM 的响应进行事实核查,以提高信息的准确性。  

  • LLM、提示及其他组件的基准测试:对不同的 LLM、提示策略及其他组件进行性能评估和比较,以优化系统表现。 

图片

图注:BioChatter 可组合平台架构(简化)。

实验评估

由于生物医学领域有其特定的任务和要求,研究团队创建了一个定制化的基准测试,以便更精确地评估各组件的性能。

基准测试结果主要衡量了 LLM 在生物医学等领域应用中的实用性。

图片

图注:基准测试结果。

为了评估 BioChatter 功能的优势,研究团队比较了使用和不使用 BioChatter 提示引擎进行知识图谱(KG)查询的模型性能。实验结果表明,未使用提示引擎的模型仍然可以访问 BioCypher 模式定义(详细描述了 KG 结构),但无法使用 BioChatter 提供的多步骤流程。因此,未使用提示引擎的模型在生成正确查询方面的性能低于使用提示引擎的相同模型,如上图 (B) 所示。

未来展望

BioChatter 的下一步是试验其与生命科学数据库的集成。BioChatter 研究团队正在与 Open Targets 密切合作,旨在利用人类遗传学和基因组学数据进行系统的药物靶点识别和优先排序。将 BioChatter 集成到 Open Targets 平台中,可以帮助用户更高效地访问和使用平台中的生物医学数据。

研究团队还在开发一个补充系统 ——BioGather,旨在从其他临床数据类型(包括基因组学、医学笔记和图像)中提取信息。BioGather 将帮助研究人员解决个性化医学、疾病建模和药物开发中的复杂问题。

相关报道:https://www.eurekalert.org/news-releases/1070721

相关资讯

Science新登,David Baker团队用AI从头设计栩栩如生的酶,比同类设计好6万倍

编辑 | 萝卜皮科学家使用人工智能(AI)从头设计酶的研究往往收效甚微,产生的酶通常在反应的第一步后就会停止。 设计具有复杂活性位点并介导多步反应的酶仍然是一项艰巨的挑战。 以丝氨酸水解酶为模型系统,华盛顿大学 David Baker 团队将 RFdiffusion 的生成能力与用于评估活性位点预组织的集成生成方法相结合,从最小活性位点描述开始设计酶。

智能电子粘附皮肤:机器人与环境交互的新进展!

编辑丨ScienceAI皮肤是人类与外界交互的重要窗口,而机器人要像人类一样灵活适应复杂环境,也需要一套能够「感知」与「操控」的智能皮肤。 以往的电子皮肤侧重模仿皮肤组织的传感功能,常常忽略了皮肤附属器的特异化功能(如鳞片的保护、摩擦控制功能)。 近期,新加坡南洋理工大学夏焜校长讲席教授、清华大学高华建院士、南洋理工王一凡教授、湘潭大学王秀锋教授团队联合,在《Science Advances》上发表了最新研究成果:一款突破性设计的智能电子粘附皮肤!

AlphaFold3级性能、开源、可商用,MIT团队推出生物分子预测模型Boltz-1

图示:来自测试集的靶标上的 Boltz-1 的示例预测。 (来源:论文)编辑 | 萝卜皮2024 年 11 月 18 日,麻省理工学院(MIT)的研究人员宣布推出 Boltz-1,这是一个开源模型,旨在准确模拟复杂的生物分子相互作用。 Boltz-1 是第一个完全商业化的开源模型,在预测生物分子复合物的 3D 结构方面达到 AlphaFold3 级精度。