计算生物学家​Anne Carpenter谈:机器学习将高维的生物学问题简化

编译/凯霞今天,生物医学研究人员可以通过使用机器学习进行基于图像的分析,有效地对显微镜图像中的数千个细胞进行分类。计算生物学家 Anne Carpenter 是开发这些自动化工具的先驱。你不能通过封面来判断一本书,也就是,你不能以貌取人,至少我们是这么了解人的。然而,对于细胞来说,令人惊讶的是,事实并非如此。使用类似于计算机识别面部的机器学习方法,生物学家可以表征显微图像堆栈中的单个细胞。通过测量数以千计的可视化细胞特性——标记蛋白的分布、细胞核的形状、线粒体的数量——计算机可以从细胞图像中挖掘出识别细胞类型和疾病

编译/凯霞

今天,生物医学研究人员可以通过使用机器学习进行基于图像的分析,有效地对显微镜图像中的数千个细胞进行分类。计算生物学家 Anne Carpenter 是开发这些自动化工具的先驱。

计算生物学家​Anne Carpenter谈:机器学习将高维的生物学问题简化

你不能通过封面来判断一本书,也就是,你不能以貌取人,至少我们是这么了解人的。然而,对于细胞来说,令人惊讶的是,事实并非如此。使用类似于计算机识别面部的机器学习方法,生物学家可以表征显微图像堆栈中的单个细胞。通过测量数以千计的可视化细胞特性——标记蛋白的分布、细胞核的形状、线粒体的数量——计算机可以从细胞图像中挖掘出识别细胞类型和疾病相关特征的模式。这种基于图像的分析通过改进对可改变细胞特征的化合物的筛选来加速药物发现。

Anne Carpenter 是麻省理工学院和哈佛大学博德研究所成像平台的计算生物学家和高级主管,是这种研究方法的先驱。她开发了 CellProfiler,这是一种广泛使用的开源软件,用于从细胞图像中测量表型(可观察到的特征集)。自 2005 年发布以来,它已被 12,000 多篇出版物引用。

计算生物学家​Anne Carpenter谈:机器学习将高维的生物学问题简化

下载地址:https://cellprofiler.org/

它最初是作为细胞生物学家培训期间的一个业余项目——Carpenter 称之为「一小段代码来做她需要的事情」,随着时间的推移,它变成了其他研究人员发现也有用的工具箱。「当我接近博士后的最后阶段时,我发现我更愿意通过制造工具来帮助其他人完成他们很酷的生物学,而不是追求我自己特定的生物学问题,」她说。「这就是我最终留在计算机科学领域的原因。」

作为麻省理工学院的研究员,Carpenter 获得了美国国立卫生研究院 MIRA 奖、美国国家科学基金会颁发的 CAREER 奖和美国细胞生物学学会颁发的 2020 年女性细胞生物学中期职业奖等荣誉。

Carpenter 在接受量子杂志采访时谈到了将复杂的生物学转化为可计算解决的问题的乐趣,在一个井中筛选 200 种疾病的药物的雄心勃勃的努力,以及谦虚、好奇并能够与学科外的人交流的研究人员,如何创造 一种提高计算生物学和机器学习多样性的文化。为清楚起见,对采访进行了浓缩和编辑。

计算生物学家​Anne Carpenter谈:机器学习将高维的生物学问题简化

Carpenter 和她实验室的联合负责人 Shantanu Singh 组建了一个研究团队,重点关注候选人的技能、好奇心和沟通能力。「在没有明确尝试的情况下,我的实验室比顶级机构的计算实验室的平均水平要多样化得多,」她说。

计算机科学家已将他们的技能应用于生物学,但你选择了从生物学进入软件工程的不太常见的路径。是什么激励了你?

这种转变是必然的。21 世纪初,我在伊利诺伊大学厄巴纳-香槟分校攻读细胞生物学博士学位期间,一直在研究染色质(真核细胞中 DNA 和蛋白质的复合物)如何响应通过雌激素受体的信号。这需要捕获数千张显微镜图像。手动完成需要几个月的时间。我决定如果我能弄清楚如何使显微镜自动化就太好了。

我没有接受过正规的计算机科学方面培训。花了大约一个月的时间来弄清楚如何对显微镜进行编程,但这为我节省了两个月的时间,以一种非常无聊的方式手动收集图像。

它还带来了一个新的挑战:我现在有大量的图像要分析。我花了更多的时间来复制和粘贴代码,边走边想。

然而,一旦我开始玩图像分析,我就被迷住了。能够将凌乱的、定性的生物学转化为精确的、定量的数字,真是太令人满意了。我决定寻找一个博士后职位,在那里我可以通过研究高通量成像来加速生物学。

在最近的一篇文章中,你将生物学描述为「混乱」但也是「逻辑难题」。你能多谈一点吗?

生物学是相当混乱的。真的很难弄清楚任何事情。你会希望 A 激活 B,B 激活 C,然后 C 抑制 D,依此类推。但实际上,细胞中有很多奇怪的、不精确的关系——比如反馈、多重输入、替代途径——正在发生。

然而,我也相信生物学是一个逻辑难题。我们能做的最好的事情就是尝试约束我们正在测试的模型系统。然后我们可以扰乱它,测量输入和输出,等等。我们可以通过对生物学施加很多限制,将生物学变成一个不那么混乱的东西。

在怀特黑德研究所 (Whitehead Institute) 做博士后期间,你开始研究最终成为 CellProfiler 的东西。你是怎么做的?

我意识到我的项目需要一些重要的新代码,所以我就投入其中,并通过反复试验学习了一些编程。但是我仍然需要帮助来实现一些经典的图像处理算法。我读过一篇论文,说,「这正是我需要的」——但我不知道如何将论文的方程转换为代码。

我给麻省理工学院计算机科学与人工智能实验室的研究生名单发了一封电子邮件,问:「有人想帮助我吗?我有一些奖学金。」 Thouis (Ray) Jones 做出回应,并在一个周末实施了核心算法。它们非常具有革命性,并且构成了 CellProfiler 如此成功的核心:最终用户可以使用这些算法。

通过大规模量化各种细胞的表型差异,CellProfiler 可用于「基于图像的分析」。你是如何想到这个主意的?

人们会来找我们说:「这是我喜欢的细胞类型。这是我的特殊抗体,用于标记细胞中的某些蛋白质。你能告诉我有多少蛋白质存在于细胞核中吗?」当然,通过图像分析,我们可以测量他们要求的任何东西。

但是看着图像,我会说:「你是否也注意到蛋白质的质地正在发生变化?或者它实际上更多地位于原子核的边缘而不是内部?我们看到这个染色剂和那个染色剂之间的共定位。并且细胞的整体形状正在发生变化。这在生物学上有意义吗?」生物学家在桌子上留下了太多的信息!

那时,我受到了 2004 年 Science 论文的启发,研究人员对用各种化合物处理的细胞进行了基于图像的分析。他们表明,用功能相似的化合物处理的细胞往往看起来很相似——这些化合物对细胞有相似的影响。这是令人振奋的。难道这些不起眼的、美丽的细胞图像真的能提供足够的定量信息来告诉我们这些细胞用什么药物治疗过吗?那篇论文真正开创了基于图像的分析领域。

计算生物学家​Anne Carpenter谈:机器学习将高维的生物学问题简化

论文链接:https://www.science.org/doi/10.1126/science.1100709

这个分析涉及什么?

我们尽可能测量关于细胞外观的一切。我们建立在基本观察的基础上,即细胞的结构和整体外观反映了它的历史——它是如何被环境对待的。如果图像反映了细胞的状态,那么如果我们可以量化这些并放大它们,那么寻找这些模式应该非常有用。

你从那里拿的?

我们设计了 Cell Painting 来帮助将尽可能多的信息打包到一个单一的检测中,而不是依赖生物学家决定专门染色的任何内容。Cell Painting 分析使用六种荧光染料来揭示八种细胞成分或细胞器:细胞核、核仁、细胞质 RNA、内质网、线粒体、血浆(细胞)膜、高尔基复合体和 F-肌动蛋白细胞骨架。这就像显微镜学家最喜欢的染料清单,因为它们显示了对各种压力源(如药物或基因突变)作出反应的细胞部分。

计算生物学家​Anne Carpenter谈:机器学习将高维的生物学问题简化

U2OS 和 A549 细胞中的 Cell Painting 分析。(来源:www.nature.com)

尽管如此,我还是没想到基于图像的分析会像基于 RNA 转录本或蛋白质的分析一样强大。在单个实验中,你可以测量数千个转录本或数百个蛋白质。然而,对于给定的图像,我们只有少数染色剂。

早期,我失眠了很多次,试图排除伪影并改进方法,看看它是否真的值得。但是接下来的十年左右,基于以分析方式使用图像的发现带来了一次又一次的发现。

今天,机器学习可以从图像中提取大量信息。这些算法是 2005 年推出的 CellProfiler 原始版本的一部分吗?

一点也不。CellProfiler 的功能是通过让经典图像处理算法测量图像的属性来将图像转换为数字。直到后来,机器学习才以三种方式发挥作用。

首先,机器学习可以找到细胞和其他亚细胞结构的边界。深度学习算法现在更准确,但生物学家也更容易应用——这是两全其美的。

其次,假设 CellProfiler 为每个单元提取一千个特征。如果你想知道细胞是否具有转移性,并且这是你可以通过肉眼识别的表型,你可以使用监督机器学习来教计算机基于这些特征转移细胞和非转移细胞是什么样子。

第三种方式是最近的发展。与其使用 CellProfiler 来识别细胞然后提取它们的特征,你只需将整个图像的所有原始像素光彩(glory)交给深度学习神经网络,它就会提取所有类型的特征,这些特征不一定能很好地映射到生物学家对相关特征的先入为主的想法,例如细胞大小或细胞核中可能染成红色的物质。我们发现这种特征提取非常强大。

计算生物学家​Anne Carpenter谈:机器学习将高维的生物学问题简化

在这些图像中的每一个中,细胞都用一种或多种染料处理过,这些染料可以染色特定的细胞特征。通过记录一千多个这些特征的精确位置,CellProfiler 和其他工具可以识别单个细胞的类型和它们可能显示的病理状态。

你是如何在机器学习中装备自己的,这个领域对生物学家来说似乎非常陌生和令人生畏?

如果你告诉大学时代的 Anne,「22 年后,你将领导一个专注于人工智能的研究小组」,我会说你疯了。如果没有与机器学习专家(尤其是 Jones)交朋友,就不可能实现向机器学习的转变。

他和我在麻省理工学院完成培训后,我们于 2007 年在布罗德研究所共同建立了一个实验室,我们就机器学习如何帮助生物学家进行了很多头脑风暴。使这些想法得以渗透和发展的原因是我们俩都跳过了栅栏,熟悉了双方的术语和力量,即生物学和计算机科学。这确实是一种富有成效的伙伴关系。

不再只是 Jones 了。我的小组大约来自生物学方面和计算方面的人员各一半。

你们在促进跨学科工作方面取得了很多成功。

我喜欢把人们聚集在一起。我的实验室欢迎有好奇心和不同想法的人——这与「有毒的技术兄弟」文化相反,在那里「我们很重要,我们做我们的事,除非你想被嘲笑,否则不要问问题。」当我意识到作为一名女性在计算机科学领域很难的时候,我立即意识到,在一般的科学领域成为少数族裔要困难得多。

我们关注此人是否具有与团队相辅相成的技能和兴趣,他们是否对自己领域之外的领域感到好奇,以及他们是否可以与没有经过相同培训的人进行良好的沟通。在没有明确尝试的情况下,我的实验室比顶级机构的计算实验室的平均水平要多样化得多。从我的校友中发起的大多数独立实验室都是由女性或少数群体的人领导的。

我想知道有多少人不认为他们是种族主义者或性别歧视者,但在招聘时他们会说,「这个人说话像我一样,他理解我们的语言和行话,他理解我们的领域」,更不用说“他是那种我想和他喝杯啤酒的人。」你可以看到这将如何最终形成一个在人口统计数据和领域专业知识和经验方面均相同的群体。

如今,你的团队专注于开发基于图像的分析工具以加速药物发现。你为什么选择这个?

几条证据有助于巩固这一使命。其中一项来自 2014 年的「头对头」实验,表明基于图像的配置文件可能与转录配置文件一样强大。

计算生物学家​Anne Carpenter谈:机器学习将高维的生物学问题简化

论文链接:https://www.pnas.org/content/111/30/10911

我们在 2017 年的 eLife 论文中描述了另一个,我们在细胞中过度表达了几百个基因,发现其中一半对细胞形态有影响。通过根据成像数据对基因进行分组,你可以在一个漂亮的聚类分析中看到生物学家花了数十年时间将各种信号通路拼凑起来的原因:在这里,所有与癌症相关的 RAS 通路相关的基因;在那里,Hippo 通路中调节组织生长的基因,等等。

计算生物学家​Anne Carpenter谈:机器学习将高维的生物学问题简化

论文链接:https://elifesciences.org/articles/24060

看着那个可视化,并意识到我们在一次实验中为这组基因重建了很多生物学知识——也许是几周的工作——对我来说真的很了不起。这让我们决定投入更多的时间和精力来开发这条研究轨迹。

在 2018 年的《Cell Chemical Biology》论文中,Janssen Pharmaceutica 的研究人员挖掘了旧实验中的图像——他们只测量了他们关心的一件事——并发现这些图像中通常有足够的信息来预测公司进行的其他化验的结果。大约 37% 的检测结果可以通过机器学习使用他们周围的图像来预测。这真的引起了大药厂的注意!用计算查询代替大规模药物检测每次可以节省数百万美元。

计算生物学家​Anne Carpenter谈:机器学习将高维的生物学问题简化

论文链接:https://doi.org/10.1016/j.chembiol.2018.01.015

在我于 2019 年帮助成立的一个联盟中,十几家公司和非营利合作伙伴正在努力创建一个庞大的细胞绘画数据集,其中的细胞经过超过 12 万种化合物处理,受到 2 万次遗传干扰。目标是通过在潜在药物进入临床试验之前确定其作用机制来加速药物发现。

计算生物学家​Anne Carpenter谈:机器学习将高维的生物学问题简化

有哪些基于图像的分析如何帮助发现新药的例子?

Recursion Pharmaceuticals 是在使用基于图像的分析方面走得最远的公司,有四种药物化合物进入临床试验。我在他们的科学顾问委员会任职。他们的基本方法是,让我们扰乱一个已知会导致人类疾病的基因,然后看看细胞会发生什么。如果细胞以任何可测量的方式发生变化,我们能否找到一种药物,使看起来不健康的细胞恢复健康?

他们更进一步。甚至无需在细胞上测试药物,他们就可以根据先前显示化合物对细胞影响的测试,通过计算预测哪些疾病表型可能会被哪些化合物减轻。我知道这个策略是有效的,因为我的实验室一直在我们刚刚预印的项目中研究同样的事情,尽管使用了相对原始的计算技术。

计算生物学家​Anne Carpenter谈:机器学习将高维的生物学问题简化

论文链接:https://www.biorxiv.org/content/10.1101/2021.07.29.454377v1

我一直在与麻省理工学院的 Paul Blainey 和布罗德研究所的 J.T. Neal 研究这种遗传条形码技术,它可以让我们在细胞中混合一堆遗传扰动,然后使用条形码来找出哪个细胞得到了哪种遗传试剂。这使我们能够在一个孔中混合 200 种正常和 200 种突变的人类蛋白质,我们可以用药物治疗这些蛋白质。对于每口井,我们都在测试这种药物是否对这 200 种疾病中的任何一种都有用。因此,它比进行 200 次单独的药物筛查便宜 200 倍。

我们获得了内部资金来对 80 种药物进行试点,并正在寻求资金来测试大约 6,800 种药物。如果我们做得好,可能在大约一年后,这个实验的结果会表明医生可以在阅读我们的论文后为这些疾病开出真正的药物。

是什么让你对生物医学研究中基于图像的分析的未来感到兴奋——也许更广泛地说,关于人工智能在该领域的未来?

我们已经处于使用现有机器学习方法改进药物发现过程的地步。但我可以预见未来,超越当前基于图像的分析的能力,你将开始以指数级、跨越式发展。

我们使用的所有机器学习算法都是为社交媒体开发的,用于识别人脸,为金融机构开发用于识别异常交易——诸如此类。我认为将更多的注意力放在生物领域和细胞图像上,可以真正推动事情更快地向前发展。

参考内容:https://www.quantamagazine.org/anne-carpenters-ai-tools-pull-insights-from-cell-images-20211102/

相关资讯

SOTA性能,厦大多模态蛋白质-配体亲和力预测AI方法,首次结合分子表面信息

编辑 | KX在药物研发领域,准确有效地预测蛋白质与配体的结合亲和力对于药物筛选和优化至关重要。然而,目前的研究没有考虑到分子表面信息在蛋白质-配体相互作用中的重要作用。基于此,来自厦门大学的研究人员提出了一种新颖的多模态特征提取(MFE)框架,该框架首次结合了蛋白质表面、3D 结构和序列的信息,并使用交叉注意机制进行不同模态之间的特征对齐。实验结果表明,该方法在预测蛋白质-配体结合亲和力方面取得了最先进的性能。此外,消融研究证明了该框架内蛋白质表面信息和多模态特征对齐的有效性和必要性。相关研究以「Surface-

哥大和耶鲁团队开发新算法,阐明结肠癌耐药机制

编辑 | 萝卜皮信号通路活性异常是肿瘤发生和进展的标志,30 多年来一直指导着靶向抑制剂的设计。然而,由快速、特定环境的信号网络重新布线诱导的适应性抵抗机制继续挑战治疗效果。利用蛋白质组学技术和神经网络,哥伦比亚大学和耶鲁大学的研究团队引入了 VESPA(Virtual Enrichment-based Signaling Protein-activity Analysis),一种旨在阐明细胞响应和适应药物扰动机制的算法;并用它来分析用临床相关抑制剂和对照介质处理的结直肠癌细胞的 7-point 磷酸化蛋白质组时间

AI+Science技术实践与产业应用中的挑战与机遇

「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI技术」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。