编辑 | 萝卜皮
医生和科学家如果想开发一种新的疗法,这将是一个漫长且昂贵的恣意,需要满足许多不同的标准,而能够加快这一过程的人工智能模型将是无价之宝。
然而,目前大多数人工智能方法只能解决一组定义狭窄的恣意,通常局限于特定领域。
为了弥补这一差距,Google 团队提出了 Tx-LLM,这是一种通用大型言语模型(LLM),由 PaLM-2 微调而成,可编码有关各种医治方式的学问。
仅使用一组权重,Tx-LLM 可同时处置与自由文本交织的各种化学或生物实体(小份子、蛋白质、核酸、细胞系、疾病)信息,使其能够预计广泛的相关属性。在 66 个恣意中的 43 个恣意上实现了与最先进 (SOTA) 技术相媲美的性能,并在 22 个恣意中超越了 SOTA。
其中,Tx-LLM 尤其强大,在将份子 SMILES 表示与文本(例如细胞系称呼或疾病称呼)相结合的恣意中,其平均表现优于同类最佳。
该研究以「Tx-LLM: A Large Language Model for Therapeutics」为题,于 2024 年 6 月 10 日发布在 arXiv 预印平台。
药物开发是一个充满风险的漫长过程,据统计,90% 的候选药物在临床试验阶段会失败,而那些成功的药物从研发到获批上市通常需要耗费 10 至 15 年时间及 10 亿至 20 亿美元的资金。
一个有效的医治药物必须满足多重标准,包括与目标病灶有效互动、具备良好的药效和临床疗效,同时确保无毒性和具有理想的药物特性,如溶解性、渗透性以及合适的药代动力学等。
在临床试验中,意外的非靶向效应或药物间相互作用可能会抵消原本有前景的候选药物的效果。因此,药物研发面临着巨大的挑战。
关于 Tx-LLM 如何工作
Tx-LLM,一种专为医治学设计的大型言语模型,旨在加速药物发觉流程。该模型由 PaLM-2 训练而成,通过处置包含 709 个数据集的 TxT 集合,覆盖药物发觉管线中的 66 项恣意,能够编码关于多种医治方式的学问。这些数据集的中位数大小为 11,000 条数据点。Tx-LLM 排除了少量 TDC 数据集。
图示:Tx-LLM 概述。(来源:论文)
TxT 数据集的每个组成部分都设计成包含四部分的文本提示:指令、上下文、成绩和答案。每条数据的指令是一个简短的句子,形貌了要执行的具体恣意,例如「回答有关药物属性的成绩」。
对于每一个数据集,研究者精心构造了上下文,即提供了额外的自由文本形貌,用于将成绩置于相关生物化学背景中。上下文通常由 2-3 句话组成,来源自 TDC 数据集的形貌,并根据主题的文献检索进行了人工补充。对于形貌特定实验条件的专门测试,如 ToxCast,上下文的额外信息来源于公开的测试形貌。
数据集中的成绩是一个简洁的询问,明确指出了所询问的特定属性,如「以下份子是否能穿过血脑屏障?」成绩中穿插了基于文本的医治剂表示。答案的格式因恣意类型而异。
TxT数据集主要分为三类:二元分类成绩,即预计医治剂的繁多属性,给出两种可能的答案,如药物是否有毒性;回归成绩,预计医治剂在连续尺度上的繁多属性,例如药物与目标的结合亲和力。
为了适应基于 token 而非浮点数表示的言语模型,回归恣意的标签被均匀地划分为 0 到 1000 之间的区间,指示 Tx-LLM 预计区间标签。在评估时,预计的区间标签会被转换回原始的数值标签空间。整个设计确保了 Tx-LLM 能够全面地处置药物发觉流程中的多样化恣意。
Tx-LLM 的稳健性能
图示:Tx-LLM 可能对端到端医治发展有效。(来源:论文)
Tx-LLM 使用繁多权重集同时处置多样化的化学和生物实体(小份子、蛋白质、核酸、细胞系、疾病)与自由文本的组合,预计这些实体的广泛相关属性。在 66 项恣意中,Tx-LLM 在 43 项恣意上达到了与最先进水平相当的表现,在 22 项恣意上甚至超越了现有最佳模型。
图示:Tx-LLM 与 SOTA 的性能比较。(来源:论文)
特别是在结合份子 SMILES 表示与文本(如细胞系称呼或疾病称呼)的恣意上,Tx-LLM 表现尤为突出,这可能得益于预训练期间学到的上下文信息。
此外,研究人员还发觉了不同类型药物恣意之间存在正面的学问迁移,例如小份子和蛋白质恣意间的相互促进。这些结果表明,Tx-LLM 是朝着将生物化学学问编码进大型言语模型方向迈出的重要一步,未来有可能在整个药物发觉和开发过程中扮演关键角色。
论文链接:https://arxiv.org/abs/2406.06316
相关内容:https://x.com/arankomatsuzaki/status/1800372459344114029