生物版DeepSeek的隐秘竞争,中国模型被视为更强对手,赛诺菲10亿美金押宝!

编辑 | ScienceAI上周,美国斯坦福大学、英伟达等机构联合发布的生物学AI模型Evo2引起广泛关注,被誉为「生物版Deepseek」。 正当全球科研人员为这一突破性成果热议时,该论文中的特殊标注揭开了中国AI的实力——来自中国公司百图生科xTrimo系列大模型,被Evo2的研究人员列为「参数规模更大但尚未开源的竞争对手」,揭示中国生物大模型的崛起。 实际上,百图生科公司一直被美国市场认定为生命科学基础大模型的先行者,自2020年起一直前瞻性地在该领域布局。

图片

编辑 | ScienceAI

上周,美国斯坦福大学、英伟达等机构联合发布的生物学AI模型Evo2引起广泛关注,被誉为「生物版Deepseek」。

正当全球科研人员为这一突破性成果热议时,该论文中的特殊标注揭开了中国AI的实力——来自中国公司百图生科xTrimo系列大模型,被Evo2的研究人员列为「参数规模更大但尚未开源的竞争对手」,揭示中国生物大模型的崛起。

实际上,百图生科公司一直被美国市场认定为生命科学基础大模型的先行者,自2020年起一直前瞻性地在该领域布局。

2024年10月,百图生科BioMap推出革命性产品——全模态生物大模型xTrimo V3,以2100亿参数量刷新全球最大规模的生命科学AI基础模型纪录。

这一模态生物语言大模型,正在以更低数据与成本需求构建高质量AI任务模型,其创新性在于首次实现从DNA、RNA、蛋白质到细胞层级的生物数据建模,并支持128K超长DNA序列解析,重新定义了生物大模型的竞争规则。

更重要的是,百图生科也将于近期实现1000亿参数版本的开源,超过Evo2成为全球最大规模的开源生物学模型。

这也意味着,在这场解码生命密码的全球军备竞赛中,中国力量正在蜕变为领跑者。

更懂「生命语言」的AI大模型

参数规模与模态的双重跃升

众所周知,参数量在模型发展中的关键作用,其规模直接影响模型的学习能力。相较于Evo2的400亿参数规模,百图生科xTrimo V3以超5倍量级优势构建起生命科学AI的超级大脑。

自2020年起,百图生科便着手构建超大规模生命科学专属数据图谱——通过整合蛋白质互作网络、单细胞测序、基因组学、临床数据等多维度、多模态生物信息,形成覆盖超百万物种、千亿级生物实体的结构化知识库,数据规模达行业基准的百倍以上。

值得一提的是,单就蛋白模态而言,其单模型参数已达100B,并在Evo2论文中被引用为「xTrimo large」,充分彰显了其在模型规模上的领先优势。

图片

图: Evo2论文不同模型参数对比

坚实的数据基础,也让百图生科区别于ESM、Evo等海外模型的能力,这些模型主要聚焦于蛋白或DNA序列单一模态,但xTrimo V3能够综合建模从分子、代谢网络到细胞乃至多细胞层级的各类生物数据。

这也意味着xTrimo能跨模态对齐技术深度解析生命系统底层规律,突破单一数据模态的限制,实现从分子到生物系统的全链条建模。

如今,xTrimo V3覆盖了DNA、RNA、蛋白质、细胞、化合物-蛋白互作、蛋白-蛋白互作及生命系统等七大主流模态,实现了从碱基对到细胞集群的全尺度建模。

图片

图: xTrimo Foundation Model Family

深耕生物学算法,释放Scaling Law潜能

如果说参数量是决定模型性能的重要燃料,那么模型算法和架构就如同内燃机,直接决定了如何高效发挥数据的作用。

在技术架构方面,xTrimo系列模型充分考虑了生物信息数据的独特特性,构建了一个大规模、多模态、多尺度的模型体系。

一般而言,参数越多,模型越容易「记住训练时的小错误」,导致面对新问题时表现失常。

而百图生科独创的MoE架构与生物知识引导的训练框架,进一步释放了超大规模数据的潜能,使模型在参数扩展时仍保持高效学习能力。

为更好地发挥Scaling Law效能,在DNA模态模型设计中,百图生科不再单纯追求模型规模的扩展,而是采用了基于生物知识引导的启发式设计,以更合理的网络结构提升「小模型」的智能水平,从而有效弥合机器学习技术与生物学洞见之间的鸿沟,显著增强下游应用性能。

在模型架构设计上,针对不同基因及其调控元件在序列长度上存在较大差异的问题百图生科开创性地引入多窗口尺度注意力机制和原生双链DNA建模技术。

区别于Evo2的反向互补数据增强策略,该模型直接从架构层面支持DNA双链结构建模,并增加局部感知模块捕捉三维空间信息。

这些针对DNA的独特网络设计在Scaling Law效应下展现出巨大优势,在同等训练数据和计算量下,这些创新使xTrimoDNA在同等计算条件下展现出更强的学习能力。

数据显示,在基因突变扫描等核心任务中,100亿参数的xTrimoDNA表现超越Evo1/Evo2。

图片

图:a) 大模型的扩展规律,不同架构下模型总计算量FLOPs与评估困惑度(PPL)的关系,绿色实线表明我们改进的多尺度Transformer架构在不同计算量下相比Transformer、Mamba(Caduceus)和StripedHyena(EVO)等架构均有持续改进。b) 不同模型在DNA/RNA DMS任务zero-shot效果 c) 不同模型在Protein DMS任务zero-shot效果

率先实现价值转化,全球400家用户

大模型的开发若不能有效转化为落地应用,其技术价值将沦为空洞的概念。

对此,百图生科将自身定位成为「一家世界领先的生命科学AI模型提供商」。在绝大多数基础大模型还在实验室阶段,百图生科率先探索AI大模型平台底座及应用场景的商业化。

这套技术体系已在产业端产生显著价值,xTrimo平台在AI靶点发现、蛋白设计、菌株改造等领域的200余个任务模型中,已支撑客户取得20余种已验证抗体/酶设计、10余个创新靶点授权等突破性成果。

生命科学大模型领域,百图生科也开启了首例标杆性合作,获得国际顶级药企背书。

2023年11月,赛诺菲宣布与BioMap百图生科达成大型战略协议,双方将基于百图生科的生命科学大模型,共同开发用于生物治疗药物发现的前沿模型。在这笔合作中,百图生科将获得1000万美元的预付款,总交易金额超过10亿美元。

此次是生命科学行业首次基于基础大模型的合作,并提出以模型开发而不是药物研发进展作为里程碑,标志着中国AI生物学模型首次以「基础研究工具」身份进入全球生物医药产业链核心环节。

迄今为止,百图生科服务了400余家全球用户,60所QS100高校,已签约订单潜在价值近20亿美元,其客户涵盖顶尖药企、科研机构及生物制造企业,覆盖药物研发、农业化工、环保等多领域。

由此一来,百图生科不仅能向全球输出其技术力,也意味着其AI大能力转化为可量产、可复制的商业解决方案。

其创新成果在多个领域取得突破,尤其在三大方向凸显其价值:

抗体和细胞基因疗法药物设计领域,百图生科创新性地融合结构预测算法与生成式设计技术,建立了涵盖多肽、小蛋白及纳米抗体的全流程设计平台。

尤其针对给定表位的纳米抗体从头设计这一世界性难题,团队在无抗原-抗体复合物晶体结构的GPCR表位设计中取得突破性进展——设计序列阳性率较开源方法提升3倍以上。

经N-糖基化扫描(N-glycan scanning)验证,所获VHH抗体对目标表位展现出纳摩尔级亲和力,这一成果标志着我国在计算抗体设计领域已跻身国际前沿。

靶点发现方面,基于自主研发的细胞系统大模型,百图生科构建了从组学数据解析到靶点验证的智能化发现路径。该模型通过深度挖掘疾病相关多组学数据,可精准识别驱动细胞状态转换的核心调控基因,显著提升了靶点筛选效率。依托高通量蛋白药物生成平台,已成功验证并授权了多个免疫组合靶点或者肿瘤特异性靶点,有项目已进入临床前研究阶段。

微生物研究领域,百图生科与合作方携手,将xTrimoDNA大模型与百万级微生物基因组数据库深度融合,开发出一款微生物大模型应用,在多方面展现出优秀的预测能力。

经过微调之后,同样在基因注释、代谢通路分析、表型预测等方面展现出杰出的拟合能力。基于此类微生物大模型技术底座,有望助力微生态以及生物制造领域研究,使菌株改造有的放矢,周期大幅缩短。

开启生命科学新纪元

从千亿参数到全模态覆盖,从靶点发现到工业菌株改造,百图生科的xTrimo V3,无疑是生命科学AI领域的重要里程碑。

以DeepSeek为首的大模型开源热潮,正在将大模型竞争态势从技术独占转向「生态共建」。

随着1000亿参数开源版本的临近,百图生科的xTrimo 系列模型也为全球生命科学研究贡献一份重要的中国力量。通过生态协作构建竞争优势,相信一定能在全球范围内掀起生命科学研究的新热潮。

而定位为一家平台型公司,xTrimo基础大模型具有跨领域知识迁移特性,其背后的底层技术不仅能加速药物研发、精准医疗等传统领域突破,更可拓展至材料科学、环境治理等新兴方向。

当前,合成生物学和生物制造在中国拥有广阔的市场前景,百图生科未来有望针对不同规模和需求的客户,提供相应的创新服务和解决方案。

未来,AI将不再局限于少数领域的「高墙深院」,而是成为解码生命密码、惠及罕见病治疗与精准医疗的普惠工具。

这不仅会加速药物研发、生物制造等行业的发展,为企业带来更高的效益,更重要的是,有望为全人类的健康福祉开拓出更为广阔的前景,让生命科学的进步惠及每一个人。

相关资讯

百图生科、智子引擎获新投资;Anthropic发布其最强大模型Claude3.5;Ilya创立安全超级智能公司丨AI情报局

融资快报百图生科获得港投公司的战略投资:百图生科由百度创始人李彦宏牵头发起,依托原BV百度风投生物智能团队及其50家全球被投企业的生态基础组建。 计划投入上百亿元建设自主可控的生物计算平台,利用前沿算法、智能传感器、智能芯片、微纳机器人等AI能力解决生命科学问题。 (IT桔子)智子引擎获得Pre-A轮投资:智子引擎是一家多模态大模型研究和开发商,发布了第一款应用级多模态ChatGPT产品“元乘象 ChatImg”。

NVIDIA和Arc研究所联合发布全球最大生物学 AI 模型 Evo2,助力基因组研究与设计

日前,Arc Institute 与 NVIDIA 合作,联合斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的研究人员,共同推出了全球最大的生物学人工智能模型 ——Evo2。 该模型以超过128,000个基因组的数据为基础,训练了9.3万亿个核苷酸,使其规模与最强大的生成性 AI 语言模型相媲美。 Evo2的深度学习能力使其能够快速识别不同生物体基因序列中的模式,研究人员无需耗费数年时间。

新一代生物AI模型Evo 2揭开基因密码,助力疾病研究

近日,由 Arc Institute 和 Nvidia 联合开发的 Evo2生物 AI 模型正式发布。 这一基础模型基于超过10万种生物的 DNA 数据,旨在深度解码生物学中的各种复杂现象。 Evo2能够在不同生物体的基因序列中识别出研究者们需要花费多年时间才能发现的模式,极大提升了疾病相关突变的识别能力,并可以设计出与简单细菌相当的全新基因组。