编辑 | ScienceAI
只有蛋白质组才能从根本上阐释性命。
3月20日,腾讯 AI Lab实验室3篇蛋白质组论文相继当选国际顶级学术期刊,论文分别在蛋白质组的检测、阐明以及探究发现方面提出全新的钻研方案,为人类从根本上阐释性命提供重要技能参考。
科学界曾经认为,只要绘制出人类基因组序列图,就能了解疾病的根源,但事实并非如此。相同的基因往往有不同的表达,比如,人体不同构造器官的基因组是一样的,但是各个构造器官的蛋白质组不完全一样。人和鼠的基因组的差别仅为1%,但是其形态、性状差别非常大,这就是蛋白质组不一样的体现。
中国科学院院士贺福初有一个比喻:基因组和蛋白质组的关系就像词典与文章、元素表与化工厂。基因组学中微小的差异,在蛋白质组学中可以被千倍甚至近万倍地放大。因此,要真正阐释性命,必须从蛋白质组中寻找答案。
蛋白质组学是指大规模地对蛋白质的表达水平、翻译后修饰、蛋白质相互作用等进行钻研。 针对蛋白质组的钻研不仅可以全景式地揭示性命活动的分子本质,还能阐明性命在生理或病理条件下的变化机制。蛋白组学测序技能发展迅速,相应的数据阐明计算方式也方兴未艾。对此腾讯AI Lab从数据库、AI建模和AI辅助临床阐明三个角度,通过AI技能助力蛋白组学钻研。
首次推出世界数据量最大单细胞蛋白组数据库
目前针对蛋白质组学的钻研已经深入到单细胞级别,虽然单细胞蛋白质组学能够直接在单细胞水平上测定蛋白质含量,提供了超越单纯从转录组阐明所能推断的关于细胞表型的宝贵洞见。然而,缺乏足够的大规模集成数据库,阻碍了钻研人员获取和探究单细胞蛋白质组数据,阻碍了这一规模的进步。
为了填补这一不足,腾讯 AI Lab提供了一个综合性的数据库,即单细胞蛋白质组数据库SPDB(https://scproteomicsdb.com/),该数据库详细展示了单细胞蛋白质组数据,当前版本包括133个鉴于抗体的单细胞蛋白质组数据集,涉及超过3亿个细胞和超过800个标记/表面蛋白质,以及10个鉴于质谱的单细胞蛋白质组数据集,涉及超过4000个细胞和超过7000种蛋白质。
SPDB目前已经成为世界上数据量最大,覆盖技能和数据集最为广泛的单细胞蛋白组知识库,标准化的数据处理和用户友好的网络界面,鉴于数据集级别和蛋白质级别的数据搜索和探究功能,为人类探究蛋白质组学的详细洞见,提供了重要的数据参考。
(图片来源:https://academic.oup.com/nar/article/52/D1/D562/7416372)
该技能可以供性命科学工作者和医生对世界上最全的单细胞蛋白组进行数据探究,也可以供生物信息和AI科学家对单细胞蛋白组提供更多的算法和工具,从而促进该规模的科学新发现和工具开发。本论文《SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution》也因此当选生物信息学规模数据库方面专业期刊Nucleic Acids Research。
全新的多功能算法,提升单细胞蛋白质组测序阐明准确率
和基因检测类似,要钻研蛋白质组,需要精准的检测技能。目前蛋白组学检测技能已经发展至单细胞分辨率。单细胞蛋白质组学测序技能,为揭示细胞中蛋白质-蛋白质相互作用、翻译后修饰和蛋白质形态动态的钻研带来了新的启示。然而,肽段定量的不确定性、数据缺失、严重的批次效应和高噪声,阻碍了单细胞蛋白质组数据的准确阐明和使用。
腾讯AI Lab钻研人员提出了一种新颖的多功能算法scPROTEIN,它由鉴于多任务异方差回归模型的肽段不确定性估计,以及鉴于图对比学习设计的单细胞蛋白质组数据阐明的细胞嵌入学习组成。scPROTEIN在一个统一的框架中估计了肽段定量的不确定性,去噪了蛋白质数据,消除了批次效应,并编码了单细胞蛋白质组特异性嵌入。该方式为首个针对单细胞蛋白组表征的框架,创造性解决了单细胞蛋白组学数据的特殊挑战。
随着单细胞蛋白组检测技能在性命科学和精准医疗规模的普及,该方式可以作为数据处理中重要的步骤,为鉴于单细胞蛋白组的肿瘤发生发展机制钻研、药物靶点发现和肿瘤早筛和微环境钻研提供重要的AI辅助作用。鉴于这项技能的《scPROTEIN:A Versatile Deep Graph Contrastive Learning Framework for Single-cell Proteomics Embedding》论文也当选Nature旗下方式学专业期刊Nature Methods。
(图片来源:https://www.nature.com/articles/s41592-024-02214-9)
全新的反卷积方式,助力肿瘤辅诊和预后阐明
同样当选Nature旗下专业期刊Nature Machine Intelligence的还有《Deep domain adversarial neural network for the deconvolution of cell type mixtures in tissue proteome profiling》,这篇论文从更为宏观的角度来阐明特定构造中不同细胞类型的比例。例如,常用于阐明肿瘤构造样本中不同细胞类型,该方式已经广泛适用于肿瘤微环境解释和临床诊断/分类等规模。
过去蛋白组学钻研产生大量的数据,这些数据是构造中所有细胞的平均值,难以直接反映不同类型细胞的比例,而细胞比例对于肿瘤微环境阐明较为重要。对此,腾讯AI Lab钻研人员以单细胞蛋白组为参考,鉴于AI方式对现有的构造蛋白组数据进行反卷积(一种数学方式),从构造蛋白质组数据中挖掘出细胞类型比例这一新信息,应用大量现有的蛋白组数据,获取其中的肿瘤微环境信息,助力肿瘤辅诊和预后阐明。
这种专为构造蛋白质组数据设计的鉴于深度学习的反卷积方式(scpDeconv),使用自动编码器利用整体蛋白质组数据的信息,从而提高单细胞蛋白质组数据的质量,并采用规模对抗模型来连接单细胞和整体数据分布,将标签从单细胞数据迁移到整体数据。大量实验验证了scpDeconv在反卷积来自不同物种/来源和不同蛋白质组技能产生的蛋白质组数据方面的性能。该方式是首个针对蛋白组进行反卷积的算法,解决了蛋白组独特的数据挑战。
(图片来源:https://www.nature.com/articles/s42256-023-00737-y)
上述三篇论文分别展示了腾讯AI Lab为解决蛋白组学中数据库、AI建模和AI辅助临床阐明问题而进行的一系列探究,为高效精准阐明蛋白组数据、理解肿瘤微环境和发现生物学新机制打下坚实基础。
腾讯AI Lab在AI for Science特别是性命科学规模深耕数年,具有丰富的知识和技能积累,钻研规模包括单细胞多组学、蛋白质结构设计、蛋白质折叠、AI制药、空间组学和免疫组库等,已发表scBERT和猕猴大脑图谱等钻研成果。腾讯AI Lab成立于2016年,实验室强调钻研与应用并重发展,以“学术有影响,工业有产出”为目标,鉴于扎实的学术钻研,将AI能力运用在游戏、内容、虚拟人以及医疗、医药、基因计算等多个场景中。
论文链接:
https://academic.oup.com/nar/article/52/D1/D562/7416372
https://www.nature.com/articles/s41592-024-02214-9
https://www.nature.com/articles/s42256-023-00737-y
参考文献
[1] Wang F, Liu C, Li J, et al. SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution [J]. Nucleic Acids Research, 2024, 52(D1): D562-D571.
[2] Wang F, Yang F, Huang L, et al. Deep domain adversarial neural network for the deconvolution of cell type mixtures in tissue proteome profiling[J]. Nature Machine Intelligence, 2023, 5(11): 1236-1249.
[3] Li W, Yang F, Wang F, et al. A Versatile Deep Graph Contrastive Learning Framework for Single-cell Proteomics Embedding[J]. Nature Methods, 2024.