生物学

参数仅需12万分之一,训练只需2块GPU,MIT、哈佛推出生物序列建模新方法Lyra

编辑 | 白菜叶卷积神经网络(CNN)和 Transformer 等深度学习架构通过捕捉局部和长距离依赖关系,显著推进了生物序列建模。 然而,它们在生物学环境中的应用受到高计算需求和对大数据集的需求的限制。 麻省理工学院、哈佛大学和卡内基梅隆大学等机构的研究人员提出了 Lyra,这是一种用于序列建模的次二次架构,它基于上位性的生物学框架,用于理解序列与功能之间的关系。

Nature封面:探索真菌网络,用机器人进行高通量延时成像研究

编辑 | ScienceAI丛枝菌根(AM)共生关系是自然界中最为广泛的共生伙伴关系之一。 4.5 亿年来,菌根真菌构建了用于与植物根系交换养分资源的网络。 经过 4.5 亿年的自然选择,AM 网络的灵活性和响应性极强。

11天实现18种广谱抗菌素设计,体外验证成功率94.4%,浙大侯廷军等用LLM方法从头设计AMP

编辑 | 萝卜皮大型语言模型 (LLM) 在化学和生物医学研究中取得了显著进展,可作为各种任务的多功能基础模型。 浙江大学侯廷军、谢昌谕以及南方医科大学姜志辉等课题组组成的联合团队提出了 AMP-Designer,这是一种基于 LLM 的方法,用于快速设计具有所需特性的抗菌肽 (AMP)。 在 11 天内,AMP-Designer 实现了 18 种具有广谱抗革兰氏阴性细菌活性的 AMP 的从头设计。

谷歌旗下带来细胞器动力学的「全息解码器」,启动亚像素级细胞器分析

编辑丨&细胞器经历不断的形态变化和动态相互作用,这是细胞稳态、应激反应和疾病进展的基础。 尽管细胞器的形态与运动十分重要,但由于其复杂的结构,高速的运动模式与目前现有分析技术的局限性,量化细胞器形态仍具有挑战性。 美国旧金山 Calico Life Sciences 的团队推出了一个名为 Nellie 的模型,这是一种自动化且无偏倚的管道,用于分割、跟踪和提取不同细胞内结构的特征。

生物版DeepSeek的隐秘竞争,中国模型被视为更强对手,赛诺菲10亿美金押宝!

编辑 | ScienceAI上周,美国斯坦福大学、英伟达等机构联合发布的生物学AI模型Evo2引起广泛关注,被誉为「生物版Deepseek」。 正当全球科研人员为这一突破性成果热议时,该论文中的特殊标注揭开了中国AI的实力——来自中国公司百图生科xTrimo系列大模型,被Evo2的研究人员列为「参数规模更大但尚未开源的竞争对手」,揭示中国生物大模型的崛起。 实际上,百图生科公司一直被美国市场认定为生命科学基础大模型的先行者,自2020年起一直前瞻性地在该领域布局。

Nature子刊新登,如何检测小分子机器学习中的覆盖率偏差

编辑丨&小分子机器学习旨在从分子结构中预测化学或生物特性,其应用包括毒性预测、配体结合和药代动力学等。 最近的一个趋势是开发避免显式领域知识的端到端模型。 这些模型假设训练和评估数据中没有覆盖率偏差,这意味着数据代表了真实分布。

模拟5亿年进化的ESM3在Science发布了,可推理蛋白质序列、结构和功能

编辑 | 萝卜皮2024 年夏天 EvolutionaryScale 推出了 ESM3,一款面向蛋白质语言的大模型,成功在自然进化未曾涉足的区域设计出功能性蛋白。 同期上线了该研究的预印版本。 时隔半年,该研究以「Simulating 500 million years of evolution with a language model」为题,于 2025 年 1 月 16 日在《Science》发布。

AI生物学家:当「基础模型」撞上「生物学混沌」,谁才是解谜高手?

编辑丨toileter在如今的 AI for Biology 社区里,当今的词汇是基础模型。 每个人都希望将更多事物的更大的数据放入更大的模型中进行计算测试。 虚拟细胞模型将使研究者们能够预测细胞状态如何响应化学扰动而产生变化。

AI模拟细胞,走向全新虚拟生命,斯坦福团队呼吁是时候走出全新的一步了

编辑丨&生命的诞生充满谜团。 从第一个蛋白质分子出现,再到首个细胞完成了自己的分裂。 现在的奇迹来自于一个个鲜活的细胞聚合体。

ScienceAl 2024「AI+蛋白&核酸&分子互作」专题年度回顾

编辑 | 萝卜皮2024年,科学界迎来了重要的突破与创新,尤其是在人工智能与结构生物学的结合领域。 正如今年诺贝尔奖颁发所体现的那样,人工智能(AI)技术的迅猛发展正在推动各学科的深度融合,揭示了生命科学研究的新机遇与前景。 在这一年里,AI 与生物学的交汇点愈发引人注目,成为推动现代生物医药、医学研究、生命科学等领域变革的重要力量。

新SOTA,浙大、中科院深度学习模型可靠、准确预测蛋白-配体,助力药物开发

编辑 | 萝卜皮准确预测蛋白质-配体相互作用对于理解细胞过程至关重要,目前仍面临着诸多挑战。 中国科学院、浙江大学的研究人员提出了 SurfDock,这是一种深度学习方法,通过将蛋白质序列、三维结构图和表面级特征整合到等变架构中来解决这一挑战。 SurfDock 在非欧几里德流形上采用生成扩散模型,优化分子平移、旋转和扭转以生成可靠的结合姿势。

性能远超当前SOTA,首个可解释RNA的AI植物基础模型来了,整合1124种植物RNA信息

编辑丨&植物 RNA 的复杂序列编码了大量的生物调节元件,这些元件在协调植物生长、发育和适应环境压力的关键方面起到重要作用。 基础模型 (FM) 的最新进展证明了它们在破译生物学中复杂“语言”方面前所未有的潜力。 于最近的研究中,东北师范大学、英国约翰·英尼斯中心( John Innes Centre)和埃克塞特大学(University of Exeter)等组成的团队提出了 PlantRNA-FM,一种专为植物设计的高性能且可解释的 RNA 基础模型。

仅总参数量0.1%、单GPU 15分钟完成微调,人类基因组基础模型NT登Nature子刊

编辑 | 萝卜皮从 DNA 序列预测分子表型仍然是基因组学中的一个长期挑战,通常是由于注释数据有限以及无法在任务之间转移学习所致。 在这里,英国伦敦 InstaDeep 的研究人员提出了在 DNA 序列上进行预训练的基础模型,称为 Nucleotide Transformer;其参数范围从 5000 万到 25 亿,并整合了来自 3,202 个人类基因组和 850 个不同物种基因组的信息。 这些 Transformer 模型可生成特定上下文的核苷酸序列表示,即使在低数据环境下也能实现准确预测。

AlphaFold3开源了,诺奖AI工具人人可用,开启生物分子设计新时代

编辑 | ScienceAIAlphaFold3 终于开源了。 六个月前 AlphaFold3 发布的时候,谷歌 DeepMind 没有公布其论文代码,因此引发了学界的巨大争议。 如今,DeepMind 于 11 月 11 日宣布,科学家现在可以免费下载软件代码,并将 AlphaFold3 用于非商业应用。

量子级精度,静态到动态,微软蛋白MD模拟系统登Nature

编辑 | KX生物世界的本质在于分子及其相互作用的不断变化。 了解生物分子的动力学和相互作用对于破译生物过程背后的机制,以及开发生物材料和药物至关重要。 正如诺贝尔物理学奖得主理查德·费曼(Richard Feynman)的名言:「所有生物体的行为都可以通过原子的颤动和摆动来理解。

分类准确率达99%,山大团队提出基于对比学习的基因数据分类方法

编辑 | 萝卜皮深度神经网络模型的快速进步显著增强了从微生物序列数据中提取特征的能力,这对于解决生物学挑战至关重要。 然而,标记微生物数据的稀缺性和复杂性给监督学习方法带来了巨大的困难。 为了解决这些问题,山东大学的研究人员提出了 DNASimCLR,这是一个专为高效基因序列数据特征提取而设计的无监督框架。

蛋白质功能预测新SOTA,上海理工、牛津等基于统计的AI方法,登Nature子刊

编辑 | KX蛋白质与其他分子相结合,促进几乎所有的基础生物活动。因此,了解蛋白质功能对于理解健康、疾病、进化和分子水平上的生物体功能至关重要。然而,超过 2 亿种蛋白质仍未得到表征,计算方法在很大程度上依赖于蛋白质的结构信息来预测不同质量的注释。近日,来自牛津大学、苏黎世联邦理工学院、上海理工大学和北京师范大学组成的研究团队,设计了一种基于统计的图网络方法,称为 PhiGnet,从而促进蛋白质的功能注释和功能位点的识别。PhiGnet 不仅在性能上优于其它方法,而且即使在没有结构信息的情况下也缩小了序列-功能差距

OpenAI GPT-4 AI 模型潜力挖掘:高精度建模基础蛋白质结构

科技媒体 The Decoder 昨日(8 月 21 日)发布博文,报道称罗格斯大学的一项研究表明,OpenAI 公司的 GPT-4 语言模型能高精度模拟简单的氨基酸和蛋白质结构。相关研究成果发表在《Scientific Reports》上,该科研团队使用 GPT-4 AI 语言模型,探索其在基本结构生物学任务中的表现,结果发现该 AI 模型可以准确预测分子结构。科学家们要求 GPT-4 建立 20 种标准氨基酸的三维结构模型,在反馈结果中准确地预测了原子组成、键长和角度,不过 GPT-4 在模拟环状结构和立体化学