序列 - AI在线

从概念到应用，清华团队开发DeepTFBU工具包助力基因表达精准调控

编辑 | 萝卜皮增强子通过与转录因子 (TF) 相互作用，在各种生物过程中充当基因表达的关键调节器。虽然转录因子结合位点 (TFBS) 被广泛认为是 TF 结合和增强子活性的关键决定因素，但其周围背景序列的重要作用仍有待定量表征。清华大学的研究团队提出了转录因子结合单元（transcription factor binding unit，TFBU）概念，通过使用深度学习模型量化 TFBS 周围上下文序列的影响，模块化地建模增强子。

AI突破抗药性困境！山大团队融合潜在扩散模型与MD设计新型抗菌肽

编辑 | 2049世界卫生组织预测，到 2050 年，抗生素耐药性感染可能导致每年 1000 万人死亡，超越癌症成为人类健康的首要威胁。随着抗生素滥用导致的耐药性问题日益严重，开发新型抗菌药物已成为当务之急。在此背景下，抗菌肽（Antimicrobial Peptides，AMPs）因其广谱抗菌活性和低耐药性特征，被视为下一代抗感染药物的希望之星。

准确率达95%，混合深度学习搜索纳米生物材料，登Nature子刊

编辑 | 萝卜皮超分子肽基材料具有革新纳米技术和医学等领域的巨大潜力。然而，破译其实际应用所必需的复杂序列到组装途径仍然是一项艰巨的任务。它们的发现主要依赖于需要大量资金的经验方法，这阻碍了它们的颠覆性潜力。

登Science封面！基因组基础模型Evo重磅发布，AI解码分子、DNA、RNA和蛋白质

编辑 | X_XChatGPT 可以写小说、编写计算机代码、给出食谱，它的硅片上包含了互联网上的大部分信息。如果它能对 DNA 做同样的事情会怎么样？今天，刊登在《Science》封面上一项最新研究，美国 Arc 研究所（Arc Institute）和斯坦福大学的研究团队提出了一种机器学习模型「Evo」，其能够以无与伦比的准确性解码和设计从分子到基因组规模的 DNA、RNA 和蛋白质序列。

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

编辑 | 萝卜皮人工智能（AI）已被用来揭示地球各个角落的多种基本生命体。阿里云、中山大学、悉尼大学等机构的合作团队开发了一种深度学习算法，称为 LucaProt，用于发现来自全球不同生态系统的 10,487 个宏转录组中高度分化的 RNA 依赖性 RNA 聚合酶 (RdRP) 序列。LucaProt 整合了序列和预测结构信息，从而能够准确检测 RdRP 序列。

中国科学家运用人工智能算法发现大量全新 RNA 病毒，大幅拓宽 RNA 病毒库

AI在线从中山大学官方微信公众号获悉，10 月 9 日，中山大学医学院施莽教授团队与阿里云李兆融团队在《细胞》（Cell）杂志上发表论文，报告了 180 个超群、超过 16 万种全球 RNA 病毒的发现，这是迄今为止规模最大的 RNA 病毒研究，大幅扩展了全球 RNA 病毒的多样性，该研究将人工智能技术应用于病毒鉴定，发现了传统方法未能发现的病毒“暗物质”，探索了病毒学研究的新路径。据介绍，传统的病毒发现方法包括病毒分离和生命组学的生物信息学分析，高度依赖既有知识，面对 RNA 病毒这种高度分化、种类繁多且容易变异

中科院计算所团队提出CarbonNovo，基于AI进行蛋白质结构和序列的端到端从头设计

编辑 | ScienceAI作者 | 计算所张海仓团队近期，中国科学院计算所张海仓带领的研究团队提出了 CarbonNovo，以端到端的方式联合设计蛋白质主链结构和序列。该研究以「CarbonNovo: Joint Design of Protein Structure and Sequence Using a Unified Energy-based Model」为题发表在机器学习会议 ICML 2024 上。背景介绍蛋白质是生物执行功能的重要大分子。蛋白质从头设计旨在创造全新的蛋白质，在药物开发和酶工程中有着广

Falcon Mamba 7B 开源模型登顶：换掉 Transformer，任意长序列都能处理

只是换掉 Transformer 架构，立马性能全方位提升，问鼎同规模开源模型！（注意力机制不存在了）这就是最新 Falcon Mamba 7B 模型。它采用 Mamba 状态空间语言模型架构来处理各种文本生成任务。通过取消传统注意力机制，有效提升了模型处理长序列时计算效率低下的问题。它可以处理无限长序列，但内存需求不增加。无论上下文多长，生成每个 token 的时间基本一样。由此，Falcon Mamba 模型性能全方位提升，打败一众 Transformer 架构模型，如 Llama-3.1（8B）、Mistra

Nature子刊，准确率达96%，AI从序列中预测蛋白-配体互作

编辑 | 萝卜皮在药物研发中，确定小分子配体对蛋白质的结合亲和力和功能效应至关重要。目前的计算方法可以预测这些蛋白质-配体相互作用特性，但如果没有高分辨率的蛋白质结构，通常会失去准确性，并且无法预测功能效应。莫纳什大学（Monash University）和格里菲斯大学（Griffith University）的研究人员开发了 PSICHIC（PhySIcoCHemICal graph neural network），这是一个结合物理化学约束的框架，可直接从序列数据解码相互作用指纹（fingerprints）。这使

准确率达0.96，从序列中预测蛋白-配体互作的物理化学约束图神经网络

模拟5亿年的进化信息，首个同时推理蛋白质序列、结构和功能的生物学大模型

编辑 | 萝卜皮在三十亿年的自然进化历程中，现存蛋白质的形态得以形成，经历了漫长的自然筛选过程。进化如同在地质时间尺度上进行的平行实验，通过随机突变和选择机制，依据蛋白质的序列、结构与功能进行筛选。在这里，EvolutionaryScale 的研究人员展示了在进化产生的标记上训练的语言模型可以充当进化模拟器，用于生成不同于已知蛋白质序列的功能性蛋白质。研究人员提出了 ESM3，这是一种前沿的多模态生成语言模型，可推理蛋白质的序列、结构和功能。ESM3 可以结合其模态来遵循复杂的提示，并且对生物学对齐（biologi

登Nature子刊，中科院计算所团队开发CarbonDesign，进行准确且稳健的蛋白质序列设计

编辑 | 萝卜皮蛋白质是生物体内执行生物功能的基础元件，在催化、免疫和信号传递等生物过程中起着重要作用。一般认为，蛋白质序列设计是蛋白质结构预测的逆问题。具体地，是指从给定的蛋白质三维结构出发，设计出能够折叠成为目标蛋白结构、具有目标蛋白功能的序列。它是从头蛋白质设计的关键一步，一旦主链结构被生成，为其设计最佳序列就变得至关重要。蛋白质序列设计在药物设计、酶工程等领域具有重要应用。由于可能的蛋白质序列和结构比宇宙中的粒子数量还要多，当前实现准确且稳健的蛋白质序列设计，仍然是一个挑战。中国科学院计算技术研究所张海仓、

多功能RNA分析，百度团队基于Transformer的RNA语言模型登Nature子刊

编辑 | 萝卜芯预训练语言模型在分析核苷酸序列方面显示出了良好的前景，但使用单个预训练权重集在不同任务中表现出色的多功能模型仍然存在挑战。百度大数据实验室（Big Data Lab，BDL）和上海交通大学团队开发了 RNAErnie，一种基于 Transformer 架构，以 RNA 为中心的预训练模型。研究人员用七个数据集和五个任务评估了模型，证明了 RNAErnie 在监督和无监督学习方面的优越性。RNAErnie 超越了基线，分类准确率提高了 1.8%，交互预测准确率提高了 2.2%，结构预测 F1 得分提高

3倍灵敏度，搜索百万蛋白对只需几秒，复旦、山大、上海交大开发新的蛋白质语言模型

编辑 | 萝卜皮同源蛋白质搜索是蛋白质注释和分析最常用的方法之一。与结构搜索相比，仅从序列中检测远程进化关系仍然具有挑战性。复旦大学、山东大学以及上海交通大学的研究团队提出了 PLMSearch（Protein Language Model），一种仅以序列作为输入的同源蛋白质搜索方法，能够捕获隐藏在序列后面的远程同源信息。PLMSearch 可以像 MMseqs2 一样在几秒钟内搜索数百万个查询目标蛋白质对，同时将灵敏度提高三倍以上，可与当前最先进的结构搜索方法相媲美。此外，与传统的序列搜索方法不同，PLMSear

70 亿参数训练，从DNA、RNA、蛋白质到全基因组，生物学通用大模型新标杆

编辑 | 萝卜皮基因组是完整编码 DNA、RNA 和蛋白质的序列，这些序列协调整个生物体的功能。机器学习的进步与全基因组的海量数据集相结合，可以实现生物基础模型，加速复杂分子相互作用的机械理解和生成设计。斯坦福大学（Stanford University）和 Arc Institute 的研究人员开发了 Evo，这是一种基因组基础模型，可进行多模态和多尺度学习，能完成从分子到基因组规模的预测和生成任务。使用基于深度信号处理进步的架构，该团队将 Evo 扩展到 70 亿参数，单核苷酸字节分辨率的上下文长度为 131

制药新工具、有望规避免疫反应，多伦多大学团队用AI框架重新设计参与基因治疗的关键蛋白质

编辑 | 萝卜皮当下，蛋白质设计深度生成模型的快速进展主要集中在具有大量数据的小蛋白质上。这些模型在天然序列有限的大蛋白上表现不佳，例如腺病毒和腺相关病毒的衣壳蛋白，它们是基因治疗的常见递送载体。生成合成病毒载体血清型可以克服大多数基因治疗接受者表现出的强大的预先存在的免疫反应。多伦多大学的研究人员提出了一种变异自动编码器（ProteinVAE），它可以生成合成病毒载体血清型，而无需预先存在的中和抗体的表位。将预先训练的蛋白质语言模型纳入编码器中以提高数据效率，并使用基于反卷积的上采样进行解码以避免长蛋白质序列生成

全球最长开源！元象开源大模型XVERSE-Long-256K，无条件免费商用！

元象发布全球首个上下文窗口长度256K的开源大模型XVERSE-Long-256K，支持输入25万汉字，让大模型应用进入“长文本时代”。该模型全开源，无条件免费商用，且附带手把手训练教程，让海量中小企业、研究者和开发者更早一步实现“大模型自由”。全球主流长文本大模型图谱参数量和高质量数据量决定了大模型的计算复杂度，而长文本技术（Long Context）是大模型应用发展“杀手锏”，因技术新、研发难度高，目前多为闭源付费提供。 XVERSE-Long-256K支持超长文本输入，可用于大规模数据分析、多文档阅读理解

Protein BLAST会成为过去吗？AlphaFold等对蛋白结构的搜索是否会取代对序列的搜索

编辑 | 白菜叶像 AlphaFold 这样的蛋白质结构搜索工具会用 BLAST 取代蛋白质序列搜索吗？德累斯顿工业大学的研究团队讨论了使用结构搜索进行远程同源性检测的前景，以及为什么蛋白质 BLAST 作为领先的序列搜索工具应努力纳入结构信息。BLAST 广泛用于分子生物学中搜索核苷酸和蛋白质序列。BLAST 推出三十年后，结构预测出现了重大突破，出现了 RoseTTAFold 和 AlphaFold 等工具。因此，主要序列数据库中的每个蛋白质序列现在都带有一个 3D 折叠模型。虽然这不会影响（非编码）核苷酸序列