生物学

模拟5亿年进化的ESM3在Science发布了,可推理蛋白质序列、结构和功能

编辑 | 萝卜皮2024 年夏天 EvolutionaryScale 推出了 ESM3,一款面向蛋白质语言的大模型,成功在自然进化未曾涉足的区域设计出功能性蛋白。 同期上线了该研究的预印版本。 时隔半年,该研究以「Simulating 500 million years of evolution with a language model」为题,于 2025 年 1 月 16 日在《Science》发布。

AI生物学家:当「基础模型」撞上「生物学混沌」,谁才是解谜高手?

编辑丨toileter在如今的 AI for Biology 社区里,当今的词汇是基础模型。 每个人都希望将更多事物的更大的数据放入更大的模型中进行计算测试。 虚拟细胞模型将使研究者们能够预测细胞状态如何响应化学扰动而产生变化。

AI模拟细胞,走向全新虚拟生命,斯坦福团队呼吁是时候走出全新的一步了

编辑丨&生命的诞生充满谜团。 从第一个蛋白质分子出现,再到首个细胞完成了自己的分裂。 现在的奇迹来自于一个个鲜活的细胞聚合体。

ScienceAl 2024「AI+蛋白&核酸&分子互作」专题年度回顾

编辑 | 萝卜皮2024年,科学界迎来了重要的突破与创新,尤其是在人工智能与结构生物学的结合领域。 正如今年诺贝尔奖颁发所体现的那样,人工智能(AI)技术的迅猛发展正在推动各学科的深度融合,揭示了生命科学研究的新机遇与前景。 在这一年里,AI 与生物学的交汇点愈发引人注目,成为推动现代生物医药、医学研究、生命科学等领域变革的重要力量。

新SOTA,浙大、中科院深度学习模型可靠、准确预测蛋白-配体,助力药物开发

编辑 | 萝卜皮准确预测蛋白质-配体相互作用对于理解细胞过程至关重要,目前仍面临着诸多挑战。 中国科学院、浙江大学的研究人员提出了 SurfDock,这是一种深度学习方法,通过将蛋白质序列、三维结构图和表面级特征整合到等变架构中来解决这一挑战。 SurfDock 在非欧几里德流形上采用生成扩散模型,优化分子平移、旋转和扭转以生成可靠的结合姿势。

性能远超当前SOTA,首个可解释RNA的AI植物基础模型来了,整合1124种植物RNA信息

编辑丨&植物 RNA 的复杂序列编码了大量的生物调节元件,这些元件在协调植物生长、发育和适应环境压力的关键方面起到重要作用。 基础模型 (FM) 的最新进展证明了它们在破译生物学中复杂“语言”方面前所未有的潜力。 于最近的研究中,东北师范大学、英国约翰·英尼斯中心( John Innes Centre)和埃克塞特大学(University of Exeter)等组成的团队提出了 PlantRNA-FM,一种专为植物设计的高性能且可解释的 RNA 基础模型。

仅总参数量0.1%、单GPU 15分钟完成微调,人类基因组基础模型NT登Nature子刊

编辑 | 萝卜皮从 DNA 序列预测分子表型仍然是基因组学中的一个长期挑战,通常是由于注释数据有限以及无法在任务之间转移学习所致。 在这里,英国伦敦 InstaDeep 的研究人员提出了在 DNA 序列上进行预训练的基础模型,称为 Nucleotide Transformer;其参数范围从 5000 万到 25 亿,并整合了来自 3,202 个人类基因组和 850 个不同物种基因组的信息。 这些 Transformer 模型可生成特定上下文的核苷酸序列表示,即使在低数据环境下也能实现准确预测。

AlphaFold3开源了,诺奖AI工具人人可用,开启生物分子设计新时代

编辑 | ScienceAIAlphaFold3 终于开源了。 六个月前 AlphaFold3 发布的时候,谷歌 DeepMind 没有公布其论文代码,因此引发了学界的巨大争议。 如今,DeepMind 于 11 月 11 日宣布,科学家现在可以免费下载软件代码,并将 AlphaFold3 用于非商业应用。

量子级精度,静态到动态,微软蛋白MD模拟系统登Nature

编辑 | KX生物世界的本质在于分子及其相互作用的不断变化。 了解生物分子的动力学和相互作用对于破译生物过程背后的机制,以及开发生物材料和药物至关重要。 正如诺贝尔物理学奖得主理查德·费曼(Richard Feynman)的名言:「所有生物体的行为都可以通过原子的颤动和摆动来理解。

分类准确率达99%,山大团队提出基于对比学习的基因数据分类方法

编辑 | 萝卜皮深度神经网络模型的快速进步显著增强了从微生物序列数据中提取特征的能力,这对于解决生物学挑战至关重要。 然而,标记微生物数据的稀缺性和复杂性给监督学习方法带来了巨大的困难。 为了解决这些问题,山东大学的研究人员提出了 DNASimCLR,这是一个专为高效基因序列数据特征提取而设计的无监督框架。

蛋白质功能预测新SOTA,上海理工、牛津等基于统计的AI方法,登Nature子刊

编辑 | KX蛋白质与其他分子相结合,促进几乎所有的基础生物活动。因此,了解蛋白质功能对于理解健康、疾病、进化和分子水平上的生物体功能至关重要。然而,超过 2 亿种蛋白质仍未得到表征,计算方法在很大程度上依赖于蛋白质的结构信息来预测不同质量的注释。近日,来自牛津大学、苏黎世联邦理工学院、上海理工大学和北京师范大学组成的研究团队,设计了一种基于统计的图网络方法,称为 PhiGnet,从而促进蛋白质的功能注释和功能位点的识别。PhiGnet 不仅在性能上优于其它方法,而且即使在没有结构信息的情况下也缩小了序列-功能差距

OpenAI GPT-4 AI 模型潜力挖掘:高精度建模基础蛋白质结构

科技媒体 The Decoder 昨日(8 月 21 日)发布博文,报道称罗格斯大学的一项研究表明,OpenAI 公司的 GPT-4 语言模型能高精度模拟简单的氨基酸和蛋白质结构。相关研究成果发表在《Scientific Reports》上,该科研团队使用 GPT-4 AI 语言模型,探索其在基本结构生物学任务中的表现,结果发现该 AI 模型可以准确预测分子结构。科学家们要求 GPT-4 建立 20 种标准氨基酸的三维结构模型,在反馈结果中准确地预测了原子组成、键长和角度,不过 GPT-4 在模拟环状结构和立体化学

SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息

编辑 | KX在药物研发领域,准确有效地预测蛋白质与配体的结合亲和力对于药物筛选和优化至关重要。然而,目前的研究没有考虑到分子表面信息在蛋白质-配体相互作用中的重要作用。基于此,来自厦门大学的研究人员提出了一种新颖的多模态特征提取(MFE)框架,该框架首次结合了蛋白质表面、3D 结构和序列的信息,并使用交叉注意机制进行不同模态之间的特征对齐。实验结果表明,该方法在预测蛋白质-配体结合亲和力方面取得了最先进的性能。此外,消融研究证明了该框架内蛋白质表面信息和多模态特征对齐的有效性和必要性。相关研究以「Surface-

专为五大科学领域定制,NASA与IBM合作开大语言模型INDUS

INDUS 以南天星座命名,是一套全面的大型语言模型,支持五个科学领域。(来源:NASA)编辑 | KX在大量数据上训练的大型语言模型 (LLM) 在自然语言理解和生成任务上表现出色。大多数流行的 LLM 使用 Wikipedia 等通用语料库进行训练,但词汇的分布变化导致特定领域的性能不佳。受此启发,NASA 与 IBM 合作开发了 INDUS,这是一套全面的 LLM,专为地球科学、生物学、物理学、太阳物理学、行星科学和天体物理学领域量身定制,并使用从不同数据源的精选科学语料库进行训练。INDUS 包含两类模型:

浙大开发DeepSorption:晶态多孔材料吸附性能深度学习框架

编辑 | 紫萝空间转录组学 (ST) 技术可检测单个细胞中的 mRNA 表达,同时保留其二维 (2D) 空间坐标,使研究人员能够研究转录组在组织中的空间分布;然而,对多个 ST 切片进行联合分析并将它们对齐以构建组织的三维 (3D) 堆栈仍然是一个挑战。近日,来自中国科学技术大学、合肥综合性国家科学中心和北京生命科学研究所(NIBS)的研究团队,提出了用于 ST 数据分析的深度学习空间架构表征 (SPACEL)。SPACEL 包含三个模块——Spoint、Splane 和 Scube——涵盖了 ST 数据的三个分析

AI4S|WAIC 2023科学中的人工智能:计算生物学论坛重磅嘉宾公布,这场高端学术论坛不容错过!

2023年7月7日上午,上海人工智能实验室计算生物创新中心联合复旦大学复杂体系多尺度研究院、浙江大学上海高等研究院,举办论坛AI for Science: Computational Biology/科学中的人工智能:计算生物学。

AI+Science技术实践与产业应用中的挑战与机遇

「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI技术」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。

计算生物学家​Anne Carpenter谈:机器学习将高维的生物学问题简化

编译/凯霞今天,生物医学研究人员可以通过使用机器学习进行基于图像的分析,有效地对显微镜图像中的数千个细胞进行分类。计算生物学家 Anne Carpenter 是开发这些自动化工具的先驱。你不能通过封面来判断一本书,也就是,你不能以貌取人,至少我们是这么了解人的。然而,对于细胞来说,令人惊讶的是,事实并非如此。使用类似于计算机识别面部的机器学习方法,生物学家可以表征显微图像堆栈中的单个细胞。通过测量数以千计的可视化细胞特性——标记蛋白的分布、细胞核的形状、线粒体的数量——计算机可以从细胞图像中挖掘出识别细胞类型和疾病
  • 1