腾讯AI Lab 3篇蛋白质组论文入选国际顶级期刊,为阐释生命提供重要技术参考

编辑 | ScienceAI只有蛋白质组才能从根本上阐释生命。3月20日,腾讯 AI Lab实验室3篇蛋白质组论文相继入选国际顶级学术期刊,论文分别在蛋白质组的检测、分析以及探索发现方面提出全新的研究方案,为人类从根本上阐释生命提供重要技术参考。科学界曾经认为,只要绘制出人类基因组序列图,就能了解疾病的根源,但事实并非如此。相同的基因往往有不同的表达,比如,人体不同组织器官的基因组是一样的,但是各个组织器官的蛋白质组不完全一样。人和鼠的基因组的差别仅为1%,但是其形态、性状差别非常大,这就是蛋白质组不一样的体现。中

图片

编辑 | ScienceAI

只有蛋白质组才能从根本上阐释生命。

3月20日,腾讯 AI Lab实验室3篇蛋白质组论文相继入选国际顶级学术期刊,论文分别在蛋白质组的检测、分析以及探索发现方面提出全新的研究方案,为人类从根本上阐释生命提供重要技术参考。

科学界曾经认为,只要绘制出人类基因组序列图,就能了解疾病的根源,但事实并非如此。相同的基因往往有不同的表达,比如,人体不同组织器官的基因组是一样的,但是各个组织器官的蛋白质组不完全一样。人和鼠的基因组的差别仅为1%,但是其形态、性状差别非常大,这就是蛋白质组不一样的体现。

中国科学院院士贺福初有一个比喻:基因组和蛋白质组的关系就像词典与文章、元素表与化工厂。基因组学中微小的差异,在蛋白质组学中可以被千倍甚至近万倍地放大。因此,要真正阐释生命,必须从蛋白质组中寻找答案。

蛋白质组学是指大规模地对蛋白质的表达水平、翻译后修饰、蛋白质相互作用等进行研究。 针对蛋白质组的研究不仅可以全景式地揭示生命活动的分子本质,还能阐明生命在生理或病理条件下的变化机制。蛋白组学测序技术发展迅速,相应的数据分析计算方法也方兴未艾。对此腾讯AI Lab从数据库、AI建模和AI辅助临床分析三个角度,通过AI技术助力蛋白组学研究。

首次推出世界数据量最大单细胞蛋白组数据库

目前针对蛋白质组学的研究已经深入到单细胞级别,虽然单细胞蛋白质组学能够直接在单细胞水平上测定蛋白质含量,提供了超越单纯从转录组分析所能推断的关于细胞表型的宝贵洞见。然而,缺乏足够的大规模集成数据库,阻碍了研究人员获取和探索单细胞蛋白质组数据,阻碍了这一领域的进步。

为了填补这一不足,腾讯 AI Lab提供了一个综合性的数据库,即单细胞蛋白质组数据库SPDB(https://scproteomicsdb.com/),该数据库详细展示了单细胞蛋白质组数据,当前版本包括133个基于抗体的单细胞蛋白质组数据集,涉及超过3亿个细胞和超过800个标记/表面蛋白质,以及10个基于质谱的单细胞蛋白质组数据集,涉及超过4000个细胞和超过7000种蛋白质。

SPDB目前已经成为世界上数据量最大,覆盖技术和数据集最为广泛的单细胞蛋白组知识库,标准化的数据处理和用户友好的网络界面,基于数据集级别和蛋白质级别的数据搜索和探索功能,为人类探索蛋白质组学的详细洞见,提供了重要的数据参考。

图片

(图片来源:https://academic.oup.com/nar/article/52/D1/D562/7416372)

该技术可以供生命科学工作者和医生对世界上最全的单细胞蛋白组进行数据探索,也可以供生物信息和AI科学家对单细胞蛋白组提供更多的算法和工具,从而促进该领域的科学新发现和工具开发。本论文《SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution》也因此入选生物信息学领域数据库方面专业期刊Nucleic Acids Research。

全新的多功能算法,提升单细胞蛋白质组测序分析准确率

和基因检测类似,要研究蛋白质组,需要精准的检测技术。目前蛋白组学检测技术已经发展至单细胞分辨率。单细胞蛋白质组学测序技术,为揭示细胞中蛋白质-蛋白质相互作用、翻译后修饰和蛋白质形态动态的研究带来了新的启示。然而,肽段定量的不确定性、数据缺失、严重的批次效应和高噪声,阻碍了单细胞蛋白质组数据的准确分析和使用。

腾讯AI Lab研究人员提出了一种新颖的多功能算法scPROTEIN,它由基于多任务异方差回归模型的肽段不确定性估计,以及基于图对比学习设计的单细胞蛋白质组数据分析的细胞嵌入学习组成。scPROTEIN在一个统一的框架中估计了肽段定量的不确定性,去噪了蛋白质数据,消除了批次效应,并编码了单细胞蛋白质组特异性嵌入。该方法为首个针对单细胞蛋白组表征的框架,创造性解决了单细胞蛋白组学数据的特殊挑战。

随着单细胞蛋白组检测技术在生命科学和精准医疗领域的普及,该方法可以作为数据处理中重要的步骤,为基于单细胞蛋白组的肿瘤发生发展机制研究、药物靶点发现和肿瘤早筛和微环境研究提供重要的AI辅助作用。基于这项技术的《scPROTEIN:A Versatile Deep Graph Contrastive Learning Framework for Single-cell Proteomics Embedding》论文也入选Nature旗下方法学专业期刊Nature Methods。

图片

(图片来源:https://www.nature.com/articles/s41592-024-02214-9)

全新的反卷积方法,助力肿瘤辅诊和预后分析

同样入选Nature旗下专业期刊Nature Machine Intelligence的还有《Deep domain adversarial neural network for the deconvolution of cell type mixtures in tissue proteome profiling》,这篇论文从更为宏观的角度来分析特定组织中不同细胞类型的比例。例如,常用于分析肿瘤组织样本中不同细胞类型,该方法已经广泛适用于肿瘤微环境解释和临床诊断/分类等领域。

过去蛋白组学研究产生大量的数据,这些数据是组织中所有细胞的平均值,难以直接反映不同类型细胞的比例,而细胞比例对于肿瘤微环境分析较为重要。对此,腾讯AI Lab研究人员以单细胞蛋白组为参考,基于AI方法对现有的组织蛋白组数据进行反卷积(一种数学方法),从组织蛋白质组数据中挖掘出细胞类型比例这一新信息,应用大量现有的蛋白组数据,获取其中的肿瘤微环境信息,助力肿瘤辅诊和预后分析。

这种专为组织蛋白质组数据设计的基于深度学习的反卷积方法(scpDeconv),使用自动编码器利用整体蛋白质组数据的信息,从而提高单细胞蛋白质组数据的质量,并采用领域对抗模型来连接单细胞和整体数据分布,将标签从单细胞数据迁移到整体数据。大量实验验证了scpDeconv在反卷积来自不同物种/来源和不同蛋白质组技术产生的蛋白质组数据方面的性能。该方法是首个针对蛋白组进行反卷积的算法,解决了蛋白组独特的数据挑战。

图片

(图片来源:https://www.nature.com/articles/s42256-023-00737-y)

上述三篇论文分别展示了腾讯AI Lab为解决蛋白组学中数据库、AI建模和AI辅助临床分析问题而进行的一系列探索,为高效精准分析蛋白组数据、理解肿瘤微环境和发现生物学新机制打下坚实基础。

腾讯AI Lab在AI for Science特别是生命科学领域深耕数年,具有丰富的知识和技术积累,研究领域包括单细胞多组学、蛋白质结构设计、蛋白质折叠、AI制药、空间组学和免疫组库等,已发表scBERT和猕猴大脑图谱等研究成果。腾讯AI Lab成立于2016年,实验室强调研究与应用并重发展,以“学术有影响,工业有产出”为目标,基于扎实的学术研究,将AI能力运用在游戏、内容、虚拟人以及医疗、医药、基因计算等多个场景中。

论文链接:

https://academic.oup.com/nar/article/52/D1/D562/7416372

https://www.nature.com/articles/s41592-024-02214-9

https://www.nature.com/articles/s42256-023-00737-y

参考文献

[1] Wang F, Liu C, Li J, et al. SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution [J]. Nucleic Acids Research,  2024, 52(D1): D562-D571.

[2] Wang F, Yang F, Huang L, et al. Deep domain adversarial neural network for the deconvolution of cell type mixtures in tissue proteome profiling[J]. Nature Machine Intelligence, 2023, 5(11): 1236-1249.

[3] Li W, Yang F, Wang F, et al. A Versatile Deep Graph Contrastive Learning Framework for Single-cell Proteomics Embedding[J]. Nature Methods, 2024. 

相关资讯

哈工大与腾讯开发:一种专门针对蛋白质组数据设计的反卷积方法

编辑 | 萝卜皮细胞类型反卷积是一种用于从大量测序数据中确定/解析细胞类型比例的计算方法,并且经常用于分析肿瘤组织样本中的不同细胞类型。然而,由于重复性/再现性、参考标准可变以及缺乏单细胞蛋白质组参考数据的挑战,使用蛋白质组数据分析细胞类型的反卷积技术仍处于起步阶段。哈尔滨工业大学、腾讯 AI lab 以及苏黎世联邦理工学院的研究团队合作开发了一种专门针对蛋白质组数据设计的基于深度学习的反卷积方法(scpDeconv)。scpDeconv 使用自动编码器利用来自批量蛋白质组数据的信息来提高单细胞蛋白质组数据的质量,

哈工大与腾讯团队合作开发:一种专门针对蛋白质组数据设计的深度学习反卷积方法

编辑 | 萝卜皮细胞类型反卷积是一种用于从大量测序数据中确定/解析细胞类型比例的计算方法,并且经常用于分析肿瘤组织样本中的不同细胞类型。然而,由于重复性/再现性、参考标准可变以及缺乏单细胞蛋白质组参考数据的挑战,使用蛋白质组数据分析细胞类型的反卷积技术仍处于起步阶段。哈尔滨工业大学、腾讯 AI lab 以及苏黎世联邦理工学院的研究团队合作开发了一种专门针对蛋白质组数据设计的基于深度学习的反卷积方法(scpDeconv)。scpDeconv 使用自动编码器利用来自批量蛋白质组数据的信息来提高单细胞蛋白质组数据的质量,

从基因组到蛋白质组连续翻译,南开大学开发通用跨模态数据分析方法

编辑 | 萝卜皮近期,科学家在单个细胞内同时分析多组学模态的进展,使得细胞异质性和分子层次结构的研究成为可能。然而,技术限制导致多模态数据的高噪声和高昂的成本。在这里,南开大学的研究团队提出了 scButterfly,一种基于双对齐变分自动编码器和数据增强方案的多功能单细胞跨模态翻译方法。通过对多个数据集的全面实验,研究人员证明 scButterfly 在保留细胞异质性、同时翻译各种背景的数据集和揭示细胞类型特异性生物学解释方面优于基线方法。同时,scButterfly 可应用于单模态数据的综合多组学分析、低质量单