最近几年,AI 加持下的新药研发成为被寄予厚望的赛道之一。
从流程上看,药物研发分为药物发明、临床前研究、临床研究、审批与上市四个阶段。医药界有一个「双十定律」的说法 —— 即须要超过 10 年时间、10 亿美元的成本,才有可能成功研发出一款新药。即使如此,也只有约 10% 新药能被批准进入临床期。
目前,AI 技巧的参与主要集中于药物发明阶段。挑战在于,虽然 AI 技巧加快了一部分工作的推进速度,但 AI 技巧与药物研发的 “联姻” 并不是一蹴而就的,囿于算法低效、数据割裂、数据安全、算力瓶颈等挑战,药物研发仍然是一项高风险、长周期、高成本的工作。
鉴于「AI 新药研发」还处于待普及阶段,学界和业界都在探索一种更好的技巧落地模式。数据、算法、算力,并列为人工智能技巧发展的三大要素,也在某种程度上决定了 AI 新药研发能够以何种速度走到最后一步。研发团队须要具备的条件很多:大量数据资源、充足的算力以及强大的技巧积累。在这样的情况下,在数据、算法、算力三方面均有深厚实力的大厂似乎更能扛起这份责任。
路漫漫其修远兮,究竟该如何解决遇到的挑战?
盘古药物份子大模型,为新药研发提质增效
对于西安交大一附院的刘冰教授来说,「双十定律」给他带来的体会尤其深刻。
2020 年,刘冰教授所在的团队正在尝试研发一种名为「Drug X」的超级抗菌药。然而细菌的进化速度是非常惊人的,很多时候可能等不及一款新药上市,细菌就已经产生了对这款药物的耐药性。近四十年来,范围内都未有新类别、新靶点的抗生素出现,有些被超级耐药菌感染的病人甚至面临无药可用的局面。
「目前一款抗生素的研发费用平均能达到 16 亿美金,如果这款抗生素在还没有面世的阶段被发明了细菌对它的耐药性,就等于 16 亿美金直接打水漂了。」刘冰教授表示。
想要研制一款超级抗菌药,就相当于和「耐药性的产生」举行一场时间赛跑。
传统的药物研发方式显然是不够快的,我们可以粗略算一算:药物研发平均周期超过 10 年,其中开始药物的安排就须要 3 到 5 年之久。科研团队首先要从上亿个小份子化合物中找到对目标靶点最有效的那一个,在这个过程中,团队须要不断地修改药物结构来提高其活性和成药性。每一次更新药物结构都意味着合成路线、药效评估试验等系列方案的重设和考证。
彼时,刘冰教授刚回国不久,试验室还在建设中,他想要带领团队举行 AI 辅助药物安排,但在数据、算法、算力三方面都遇到了一些挑战。
与华为云的合作机会让他看到了新的可能。华为云在 2021 年正式推出了盘古药物份子大模型,这是当前业界参数最大的药物份子大模型,主要面向药物研发范围,供应结合预测、属性预测、份子优化与生成能力。
「在科研的整个过程中,可能一万次失败里面才有一次成功。像我们这样十多个人的团队,必须要依靠像 AI 这种新技巧,才能绕开既有壁垒,走出一条新路。」刘冰教授表示。
刘冰教授所遇到的壁垒,也正是现阶段大多数科研团队和药企所遇到的挑战。而引入 AI 技巧举行药物安排的提升是相当明显的:在「药物份子挑选」和「药物份子优化」这两大环节,华为云盘古药物份子大模型对 Drug X 的研发供应了重要帮助。最终,在 AI 大模型的加持下,Drug X 开始药的研发周期获得了数十倍的加速,从数年缩短到数月,研发成本直接降低了 70%。
这种飞跃式提升是如何实现的?简单来说,华为云盘古药物份子大模型接受了超大规模的化合物表征模型训练,预先对 17 亿个药物份子的化学结构举行了学习,并对药物份子结构举行预测、打分。试验结果表明,华为云盘古药物份子大模型的成药性预测准确率比传统方式高 20%,帮助科研人员省去大量药物安排的成本。此外,该模型还内置了高效的份子生成器生成了 1 亿个革新的类药物小份子挑选库,结构新颖性达 99.68%,为发明新药创造了更多可能性。
盘古药物份子大模型框架。图源:https://www.biorxiv.org/content/10.1101/2022.03.31.485886v1.full
「盘古药物份子大模型的训练前后花费两年的时间,华为云团队在模型架构安排及考证、大规模百卡昇腾 NPU 的训练都遇到过挑战,最后都一一解决了。」华为云 EIHealth 医疗智能体负责人乔楠博士介绍说。
在这一模型的打造过程中,华为云团队首创了名为「图 – 序列不对称条件自编码器」的架构,将药物份子结构转换成可量化的数值,可以更好地在数值空间定量地对药物份子结构与性质举行预测与推荐。在 AI 优先推荐的药物份子基础上,科研人员可直接选择评分较高的药物份子举行人工试验考证。
这一架构的灵感来源于人类认识化合物的两种方式:份子式和结构式。「我们教会 AI 用同样的方法学习化合物的份子式和结构式,安排了这样一个图和序列不对称的算法架构,它的两端采用的是两种不同的深度学习架构,图部分采用了图深度学习、图卷积的方法,序列部分采用了 Transformer 架构。」乔楠博士表示。
盘古药物份子大模型的图 – 序列不对称条件自编码器架构。
在缩短研发时间、降低研发成本之外,盘古药物份子大模型还能够对挑选后的开始化合物举行定向优化,通过更科学的药物结构安排,降低新药可能对人体产生的毒副作用。
在相关论文发表前,华为云团队对盘古药物份子大模型举行了多项测试,结果表明,该模型在化合物 – 靶标相互作用预测、化合物 ADME/T(吸收、分配、代谢、排泄、毒性)属性评分、化合物份子生成与优化等 20 余项药物发明任务上实现了 SOTA(性能最优),可赋能药物发明全链条任务。
正如乔楠博士所说,如果说相关范围内的科研是「科学」,那么盘古药物安排大模型就是「技巧」,科学与技巧与相辅相成,才能让基础发明快速转化为一个可以运用到实际场景的成果。在近两年的商用中,已有多家药企借助盘古药物份子大模型安排出了具备良好活性的新份子。
其中,微芯生物在肿瘤药物安排范围鉴于华为云能力,将药物安排效率提升 1/3,份子优化后结合能提升 40%,加速肿瘤范围药物研发革新研究。
旺山旺水在中枢神经系统革新药物的系列研发工作中,靶点发明效率提升 3 倍,份子安排试验时间及资金成本节省 60%以上,高靶向性化合物的优化安排和考证工作量降低五倍以上。
打造新药研发范围的「EDA 软件」
不只有面向药物份子安排的行业大模型,一直以来,华为云还在做一件更长期主义的事:打造新药研发范围的「EDA 软件」。
业内有一个判断:「未来的 AI 制药,正从以算法为中心(Model-centric)朝着以数据为中心(Data-centric)的竞争趋势演进,而高质量大数据是医药研发的竞争关键。」
新药研发的核心高质量数据通常掌握在药企手中,然而大部分药企特别是中小企业仍处于传统医药研发阶段,缺乏人工智能及大数据分析手段的支撑。海量的原始数据未经过系统化的清洗整理,大多不能产生良好的预测效果。
数据的价值须要使用算法去发明,同时结合 AI 新药研发公司成熟的算法,而算法须要运行在算力平台上。在这种情况下,就须要一个高效的企业级 AI 辅助药物研发平台将三大要素有机结合起来。
如此一来,不仅能够提高药物研发的效率、节约成本,还能大大降低药物研发的门槛,让每一家药企都能高效转型。
为此,华为云在医药范围自下而上构建了 IaaS、PaaS、SaaS 三层办事:鉴于分布式云基础设施,在药物研发环节为药企供应融合大数据、AI 能力的一站式 AI 辅助药物研发平台,并且根据多样性的数据治理和 AI 开发需求,供应全链路药物研发数据治理能力和全流程药物研发 AI 开发能力,帮助众多药企降低 AI 开发门槛和提升研发效率 。
具体来说,在 SaaS 层,华为云的一站式 AI 辅助药物研发平台涵盖了「靶点发明」、「药物挑选」、「份子优化」三大核心办事,覆盖新药研发全流程,支持从靶点发明、虚拟挑选、开始化合物优化到获取可合成开始化合物的全业务流程,真正做到了「无功能断点」。
例如,传统的靶点发明须要做大量的科研工作,对靶点做大量的生物学假设,并安排一系列的试验举行考证,须要漫长的周期。在这一环节,华为云发布了 AutoGenome 单组学自动 AI 建模、AutoOmics 多组学自动 AI 建模、AutoGGN 调控网络自动 AI 建模三个框架,即使是没有机器学习背景的研究人员,也可以借助这些自动化调优的方法和策略对自己研究的问题和数据举行建模。
再谈到药物挑选,传统方法通常是借助试验手段或采用高通量试验挑选平台举行挑选,不仅耗时、耗钱,而且多样性差。华为云的一站式 AI 辅助药物研发平台则大大加速了这一早期挑选过程:平台预置了药物虚拟挑选流程和份子库,依托于华为云弹性扩容算力,支持并行化地完成海量的药物虚拟挑选,同时支持小份子和多肽份子对接,供应了打分矩阵、集成可视化。
药物虚拟挑选结果案例展示。
一个具备代表性的案例是,新冠疫情爆发之后,由于没有试验提出新冠病毒相关靶点,研究人员很难举行相关业务安排。当时,华为云和国内几所高校积极开展新冠肺炎药物挑选工作,鉴于华为云 15000 核超大算力,完成了新冠 21 个蛋白质靶点与 8500 个已上市药物的挑选工作。原本耗时一个月的药物虚拟挑选,最终缩短到一天完成。
对于份子优化环节,传统方法更加依赖资深的药化专家在漫长职业生涯中积累的经验,对化合物举行改造,并须要举行试验考证,项目的成功极其依赖药化专家的经验和运气,而华为云供应的盘古药物份子大模型将这一阶段的工作举行了拆解,供应了多种自动化工具。
模型以参考化合物为起点,使得从参考化合物到改造化合物的类药性质一览无余,更方便地迭代优化,得到性质更优、结构新颖的化合物。这些丰富的功能意味着,如果一位药企的研究人员积累了大量关于某种毒性的试验数据,就可将试验数据上传并通过盘古药物份子大模型鉴于它的试验数据举行 Fine-tune 调优,直接可以在八十多种份子属性里面再加上新的自定义份子属性。
「算法只是一种技巧的架构,一方面算法须要数据的训练来实现真正的业务须要,另一方面,就像 ChatGPT 一样,只有足够多的数据输入才能实现算法的最好性能,最后,算法的领先性须要持续的数据输入和迭代。所以未来 AI 制药的竞争是 AI 算法和药企数据的深度结合,实现干(计算,Dry Lab)湿(试验,Wet Lab)结合,循环迭代的大模型。」
SaaS 化办事的好处在于,药企只需订阅这一平台,就可以立即将其应用到自身的业务中,不用考虑他要雇多少人去开发、维护平台,也不须要考虑怎么引入新的技巧方法。这种模式对于药企来是最直接、最快速的提升,意味着可以将重心、核心、精力聚焦于自身的业务层。
在将最新的技巧和方法引入到平台的同时,华为云团队也特别注重将客户需求和建议融入平台。为了应对不断变化的需求,「AI 辅助药物研发平台」每年平均迭代、更新几十次,华为云派出专业的研发团队让药企的算法模型办事持续从业务中获得反馈以举行更新,确保药企可以方便快捷地将最新的技巧应用起来,最终加速革新药的研发。
数据、算法、算力,构成了 AI 技巧发展的三大要素,三者之间密不可分。例如,还有一些挑战依旧是药企最担心的:比如药物安排阶段产生的大量数据如何存、怎么用?算力资源的局限如何突破?
面向客户在「数据」和「算力」两块的升级需求,华为云也给到了专门的解决方案:通过全链路药研数据治理办事,在集成、存储、转换、分析、治理等全生命周期帮助医药企业举行自动化、智能化的数据治理,实现外采数据统一管控、干试验数据跨团队共享、干 / 湿试验数据整合闭环,并以中心化数据安全策略覆盖全链路,为药物研发供应高质量、高可信数据;此外,在算力方面,华为云供应医药行业分布式云基础设施,为药物研发供应最强算力底座和极致算力性能,通过高安全、高可用、高性能、国产化、大算力的云计算资源,保障生物医药企业数字化建设的数据安全性、系统合规性、研发稳定性、资源弹性。
让「AI for Industries」走到千行百业的深处
从目前的阶段来看,AI 制药对于制药行业仍是一门颠覆式的革新技巧。长远来看,AI 技巧广泛应用于制药行业的是必然趋势,以传统试验为唯一的药物发明过程必将逐渐过渡为以数据驱动的范式。
中国的制药行业是一个饱和的市场,对于每一家药企来说,革新药的研发将成为下一阶段取胜的关键。接下来的路怎么走,仍然值得探讨。
在取得一系列成果之后,华为云已成为 AI 新药研发赛道的「实力玩家」,越来越受到行业伙伴的关注。鉴于此,多方机构联合起来探索一种科研机构、医药产业链、华为云等「产学研用」紧密结合的模式,成为了众望所归。
在近日举办的华为云 AI 新药研发论坛中,由昌平区管委会、昌发展、华为云共同建设的「生命谷健康云革新中心」正式揭牌。
该中心投入运营后,华为云也将鉴于人工智能等云计算能力持续汇聚各方力量,更有效地办事药企,帮助京津冀 TOP 药企实现突破性革新,提升京津冀生物医药产业在全国的知名度,并将合作模式辐射至全国各生物医药产业园区。
华为云 EI 办事产品部部长尤鹏表示,AI制药技巧使得漫长的「马拉松」转向「加速跑」,华为希望以自身数据、算法、算力三方面的积累,以生命谷健康云革新中心为起点,未来办事于全国100+生物医药产业基地,推动中国新药研发高质量高速发展。
在新药研发范围的历史性变革中,像华为云这样的头部企业,正在对中国 AI 新药研发事业起到重要的推动作用。在我国生物医药产业链和产业集聚的形成过程中,「生命谷健康云革新中心」模式也将成为一种值得关注的革新路径。
最后,当大模型成为全新的风口,我们更须要思考的是,动辄十亿、百亿参数的大模型能在何种程度上改变社会,实现路径又是怎样的。
作为国内率先投入大模型研发及落地的机构,华为云认为,未来的三年将会是大模型是风起云涌的三年,AI 将会和各行各业深度结合,「AI for Industries」将是主要方向。
鉴于盘古基础大模型,华为云正在向各行各业供应盘古行业大模型办事,陆续推出了矿山、药物份子、电力、气象、海浪等盘古行业大模型,为业界贡献先进的算法和解决方案。
未来,参照已经实践的大模型办事模式,华为云希望继续将最前沿的一批 AI 技巧复制到千行百业之中去,推动人工智能开发实现从「作坊式」到「工业化」升级。