预测

准确率达100%,「人机交互」机器学习,驱动有机反应精确原子映射研究

编辑 | X原子到原子映射(Atom-to-atom Mapping,AAM)是识别化学反应前后分子中每个原子位置的任务,这对于理解反应机理非常重要。近年来,越来越多的机器学习模型用于逆合成和反应结果预测,这些模型的质量高度依赖于反应数据集中 AAM 的质量。虽然有一些算法使用图论或无监督学习来标记反应数据集的 AAM,但现有方法是基于子结构 alignments 而不是化学知识来映射原子。在此,来自韩国首尔大学(Seoul National University)和韩国科学技术院(KAIST)的研究团队,提出了一

Nature|机器学习和物理模型的「双向奔赴」,3种AI气候建模方法

编辑 | ScienceAI气候科学家 Tapio Schneider 很高兴,因为机器学习让他摆脱了日常工作中繁琐乏味的任务。十多年前,当他第一次开始模拟云的形成时,这主要涉及到煞费苦心地调整描述水滴、气流和温度如何相互作用的方程。但自 2017 年以来,机器学习和人工智能 (AI) 改变了他的工作方式。「机器学习让这门科学变得更加有趣,」在加州理工学院工作的 Schneider 说。「它速度更快、更令人满意,而且你可以获得更好的解决方案。」传统的气候模型是由 Schneider 等科学家从头开始手动构建的,他们

讨论下一个token预测时,我们可能正在走进陷阱

自香农在《通信的数学原理》一书中提出「下一个 token 预测任务」之后,这一概念逐渐成为现代语言模型的核心部分。最近,围绕下一个 token 预测的讨论日趋激烈。然而,越来越多的人认为,以下一个 token 的预测为目标只能得到一个优秀的「即兴表演艺术家」,并不能真正模拟人类思维。人类会在执行计划之前在头脑中进行细致的想象、策划和回溯。遗憾的是,这种策略并没有明确地构建在当今语言模型的框架中。对此,部分学者如 LeCun,在其论文中已有所评判。在一篇论文中,来自苏黎世联邦理工学院的 Gregor Bachmann

最早提前 7 天,谷歌借助 AI 能准确预测洪灾

感谢谷歌近日在《Nature》上发表科研成果,表示借助 AI 的力量,最早能够提前 7 天准确预测洪灾,希望为全球 80 多个国家和地区的居民提供可靠的洪灾预测服务。由于大多数河流都没有流量计,因此预测洪水一直是个棘手的问题。谷歌利用各种相关数据(包括历史事件、河流水位读数、海拔和地形读数等)训练机器学习模型,从而解决了这一问题。 谷歌通过模型生成本地化地图,并在每个地点进行了数十万次模拟,从而准确预测即将到来的洪水。谷歌表示该模型现阶段仅适用于指定地点,不过未来希望改进该技术,最终解决全球范围内的问题。谷歌表示现

Nature子刊 | KAUST团队训练大语言模型,进行作为近似语义蕴涵的蛋白质功能预测

编辑 | 萝卜皮基因本体论(Gene Ontology,GO)是一种公理理论,目前拥有超过 100,000 条公理,描述了三个子本体中蛋白质的分子功能、生物过程和细胞位置。使用 GO 预测蛋白质的功能需要模型拥有学习和推理能力。科学家已经开发出多种方法来自动预测蛋白质功能,但有效利用 GO 中的所有公理进行知识增强学习仍然是一个挑战。阿卜杜拉国王科技大学(King Abdullah University of Science & Technology,KAUST)的研究人员开发了 DeepGO-SE,这是一种使用预

预测所有生物分子,David Baker 团队蛋白质设计新工具 RoseTTAFold All-Atom 登 Science

编辑 | ScienceAI在蛋白领域,华盛顿大学 David Baker 团队又带来了新进展。蛋白质是生命存在不可或缺的分子,但它们不是细胞中唯一的分子,参与生命过程它们必须与其他分子相互协作。近年来,AlphaFold 和 RoseTTAFold 等蛋白质结构预测算法,席卷了结构生物学领域。深度学习方法彻底改变了蛋白质结构预测和设计方式,但目前仅限于纯蛋白质系统。问题是,这些模型忽略了许多影响蛋白质结构的化学类型。「例如,许多生物学涉及蛋白质与小分子相互作用。」华盛顿大学教授 David Baker 说。「这是

预测精度高达0.98,清华、深势科技等提出基于Transformer的MOF材料多功能预测框架

编辑 | X气体分离对于工业生产和环境保护至关重要,金属有机框架(MOF)由于其独特的性能而成为气体分离领域一种有前途的材料。传统的模拟方法,如分子动力学,复杂且计算量要求高。虽然基于特征工程的机器学习方法表现更好,但由于标记数据有限,很容易出现过度拟合。此外,这些方法通常是针对单一任务而设计的。为了应对这些挑战,由清华大学、加州大学、中山大学、苏州大学、深势科技和北京科学智能研究院(AI for Science Institute,Beijing,AISI) 组成的多机构团队,合作提出了 Uni-MOF,一种用于

降低预测误差,中国科学院团队开发用于预测酶动力学参数的统一框架

编辑 | 萝卜皮酶动力学参数的预测对于设计和优化各种生物技术和工业应用的酶至关重要,但当前预测工具在各种任务上的有限性能阻碍了它们的实际应用。中国科学院的研究人员开发了 UniKP,一个基于预训练语言模型的统一框架,用于预测酶动力学参数,包括来自蛋白质序列和底物结构的酶周转数 (kcat)、米氏常数 (Km) 和催化效率 (kcat / Km)。还提出了源自 UniKP (EF-UniKP) 的两层框架,从而允许在考虑环境因素(包括 pH 值和温度)时进行稳健的 kcat 预测。并且,该团队系统地探索了四种有代表性

发现、合成并表征303个新分子,MIT团队开发机器学习驱动的闭环自主分子发现平台

编辑 | X传统意义上,发现所需特性的分子过程一直是由手动实验、化学家的直觉以及对机制和第一原理的理解推动的。随着化学家越来越多地使用自动化设备和预测合成算法,自主研究设备越来越接近实现。近日,来自 MIT 的研究人员开发了由集成机器学习工具驱动的闭环自主分子发现平台,以加速具有所需特性的分子的设计。无需手动实验即可探索化学空间并利用已知的化学结构。在两个案例研究中,该平台尝试了 3000 多个反应,其中 1000 多个产生了预测的反应产物,提出、合成并表征了 303 种未报道的染料样分子。该研究以《Autonom

华科大团队开发几何三角形感知蛋白质语言模型,预测蛋白质-蛋白质接触

编辑 | 萝卜皮有关相互作用蛋白质之间的残基-残基距离的信息对于蛋白质复合物的结构建模非常重要,并且对于理解蛋白质-蛋白质相互作用的分子机制也很有价值。随着深度学习的出现,人们开发了许多方法来准确预测单体的蛋白质内残基-残基接触。然而,准确预测蛋白质复合物,尤其是异源蛋白质复合物的蛋白质间残基-残基接触仍然具有挑战性。华中科技大学的研究人员开发了一种基于蛋白质语言模型的深度学习方法,通过在深度神经网络中引入三角形更新和三角形自注意力的三角形感知机制来预测蛋白质复合物的蛋白质间残基-残基接触(称为 DeepInter

台式PC上可运行,DeepMind天气AI以0.25°分辨率预测全球10天内数百个天气变量,仅1分钟

编辑 | 萝卜皮全球中期天气预报对于许多社会和经济领域的决策至关重要。传统的数值天气预报使用增加的计算资源来提高预报精度,但无法直接使用历史天气数据来改进基础模型。Google DeepMind 团队介绍了「GraphCast」,一种直接从再分析数据训练的基于机器学习的方法。它可以在一分钟内以 0.25° 的分辨率预测全球 10 天内的数百个天气变量。研究人员用 1380 个验证目标进行了测试,GraphCast 在 90% 的验证目标中显著优于当前最准确的操作确定性系统,其预测支持更好的严重事件预测,包括热带气旋

Nature | 通过序列聚类和 AlphaFold2 预测多种构象

编辑 | XAlphaFold2 (AF2) 通过准确预测蛋白质的单一结构彻底改变了结构生物学。然而,蛋白质的生物学功能通常取决于多种构象亚状态,而致病的点突变往往会导致这些亚状态内的种群变化。来自布兰迪斯大学和霍华德·休斯医学研究所(Brandeis University and Howard Hughes Medical Institute)、哈佛大学和剑桥大学的研究团队,研究证明通过序列相似性对多序列比对 (MSA) 进行聚类,使 AF2 能够以高置信度对已知变形蛋白(metamorphic protein)

超强性能,提前24h准确预测,谷歌团队发布新的天气预测模型MetNet-3

编辑 | ScienceAI预测降水、温度和风等天气变量对于社会生产生活至关重要。随着更多的极端天气出现,比如洪水、干旱和热浪等,准确的预报对于准备和减轻其影响尤为重要。未来的前 24 小时很关键,因为它们具有高度可预测性和可操作性,可以帮助人们及时做出明智的决策并保证安全。深度神经网络为天气条件建模提供了另一种范例。一旦数据可用,神经模型就能在不到一秒的时间内做出预测,并且具有非常高的时间和空间分辨率,以及直接从大气观测中学习的能力。使用大气观测、最高保真度和最低延迟数据训练的神经模型,与最先进的概率数值天气预报

更低计算成本,基于单电子约化密度矩阵的机器学习电子结构方法

编辑 | 萝卜皮密度泛函理论(DFT)的定理建立了多体系统的局部外部势与其电子密度、波函数以及单粒子约化密度矩阵之间的双射映射。在此基础上,罗格斯大学(Rutgers University)和纽约大学(New York University)的研究人员证明基于单电子约化密度矩阵(reduced density matrices)的机器学习模型可用于生成替代电子结构方法。该团队为从小分子(如水)到更复杂的化合物(如苯和丙醇)的系统生成局部和混合 DFT、Hartree-Fock 和完整构型相互作用理论的替代品。代理模

助力发现药物靶点,华科大开发深度迁移学习方法,预测跨膜蛋白

编辑 | 萝卜皮膜蛋白由大约四分之一的人类基因编码。链间残基-残基接触信息对于膜蛋白复合物的结构预测很重要,对于理解其分子机制很有价值。尽管已经提出了许多深度学习方法来预测膜蛋白中的蛋白内接触或螺旋-螺旋相互作用,但由于跨膜蛋白数量有限,准确预测其链间接触仍然具有挑战性。为了应对这一挑战,华中科技大学的研究人员利用从非跨膜蛋白大数据集中预先训练的知识,开发了一种深度迁移学习方法,用于预测跨膜蛋白复合物的链间接触,称为 DeepTMP。DeepTMP 利用几何三角形感知模块从蛋白质语言模型生成的共同进化信息中捕获正确

使用超图学习梳理出基因组规模代谢网络中缺失的反应

编辑 | 白菜叶基因组规模代谢模型 (GEM) 是预测生物体细胞代谢和生理状态的强大工具。然而,由于学界对代谢过程的了解不完善,即使是精心设计的 GEM 也存在知识缺口。现有的间隙填充方法通常需要表型数据作为输入,来梳理缺失的反应。在实验数据可用之前,科学家仍然缺乏一种快速准确地填补代谢网络缺口的计算方法。斯隆凯特琳癌症中心(Memorial Sloan Kettering Cancer Center)的研究人员提出了一种基于深度学习的方法——CHEbyshev Spectral HyperlInk pREdict

全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题

PSCP 深度架构 AttnPacker——大幅优化的AI算法。

GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑

Yann LeCun 这个观点的确有些大胆。