准确率87.6%,南农、国防科大、苏大等发布显微图像分类AI新方法

编辑 | 萝卜皮在医学显微图像分类(MIC)领域,基于 CNN 和 Transformer 的模型得到了广泛的研究。然而,CNN 在建模长距离依赖关系方面存在短板,限制了其充分利用图像中语义信息的能力。相反,Transformer 受到二次计算复杂性的制约。为了解决这些挑战,南京农业大学、国防科技大学、湘潭大学、南京邮电大学、苏州大学组成的联合研究团队提出了一个基于 Mamba 架构的模型:Microscopic-Mamba。具体来说,该团队设计了部分选择前馈网络(PSFFN)来取代视觉状态空间模块(VSSM)的最

图片

编辑 | 萝卜皮

在医学显微图像分类(MIC)领域,基于 CNN 和 Transformer 的模型得到了广泛的研究。然而,CNN 在建模长距离依赖关系方面存在短板,限制了其充分利用图像中语义信息的能力。相反,Transformer 受到二次计算复杂性的制约。

为了解决这些挑战,南京农业大学、国防科技大学、湘潭大学、南京邮电大学、苏州大学组成的联合研究团队提出了一个基于 Mamba 架构的模型:Microscopic-Mamba。

具体来说,该团队设计了部分选择前馈网络(PSFFN)来取代视觉状态空间模块(VSSM)的最后一层线性层,增强了 Mamba 的局部特征提取能力。

此外,研究人员提出了调制交互特征聚合(MIFA)模块,使模型可以有效地调制和动态聚合全局和局部特征。他们还采用了并行 VSSM 机制,以改善通道间信息交互,同时减少参数数量。

该研究以「Microscopic-Mamba: Revealing the Secrets of Microscopic Images with Just 4M Parameters」为题,于 2024 年 9 月 12 日发布在 arXiv 预印平台。

图片

显微成像技术在医学中至关重要,能够在细胞和分子水平上分析生物结构,帮助诊断疾病。然而,对显微图像的手动分类效率低下,且需要大量专业知识。虽然 CNN 能有效提取局部特征,但其捕捉长距离依赖关系的能力有限;ViT 虽能建模全局依赖关系,但计算复杂度高。

现有的解决这些限制的方法包括结合 CNN 和 Transformer 的混合方法。这些方法试图在局部和全局特征提取之间取得平衡,但通常以牺牲准确性或计算效率为代价。

因此,科学家需要设计更高效的模型,能有效地处理局部和全局信息,同时无需承担巨大的计算负担。

南京农业大学、国防科技大学、湘潭大学、南京邮电大学和苏州大学的研究团队提出了一种名为 Microscopic-Mamba 的新型架构来应对这些挑战。

图片

图示:Microscopic-Mamba 架构。(来源:论文)

它以较低的计算复杂度缓解了现实医疗场景中的计算限制。该模型专门用于通过结合 CNN 在局部特征提取方面的优势与状态空间模型(SSM)在捕获长距离依赖关系方面的效率来改善微观图像分类。

该团队的模型集成了部分选择前馈网络(PSFFN)来取代视觉状态空间模块(VSSM)中的最终线性层,在保持紧凑高效的架构的同时,显著增强了感知局部特征的能力。通过结合全局和局部信息处理能力,Microscopic-Mamba 模型力图在医学图像分类领域树立新的标杆。

Microscopic-Mamba 背后的核心方法在于其双分支结构,由用于局部特征提取的卷积分支和用于全局特征建模的 SSM 分支组成。该模型还引入了调制交互特征聚合 (MIFA) 模块,旨在有效融合全局特征和局部特征。在此架构中,CNN 分支使用深度可分离卷积(DWConv)和逐点卷积(PWConv)进行局部特征提取。

相比之下,SSM 分支则专注于通过并行视觉状态空间模块(VSSM)进行全局特征建模。集成这两个模块使 Microscopic-Mamba 能够处理详细的局部信息和广泛的全局模式,这对于准确的医学图像分析至关重要。

VSSM 中的最后一层被 PSFFN 取代,这提高了模型捕获局部信息的能力,优化了细节和泛化之间的平衡。

图片

图示:在五个公共数据集上与最先进方法进行性能比较。(来源:论文)

研究人员用五个公共医学图像数据集对 Microscopic-Mamba 模型进行了广泛的测试,均表现出了优异的性能。

这些数据集包括视网膜色素上皮 (RPE) 细胞数据集、用于疟疾细胞分类的 SARS 数据集、用于结直肠息肉分类的 MHIST 数据集、用于肿瘤组织分类的 MedFM Colon 数据集,以及包含超过 236,386 张人类肾细胞图像的 TissueMNIST 数据集。

该模型在高准确率和低计算需求之间实现了完美平衡,非常适合实际医疗应用。例如,在 RPE 数据集上,Microscopic-Mamba 实现了 87.60% 的总体准确率 (OA) 和 98.28% 的曲线下面积 (AUC),优于现有方法。

该模型的轻量级设计,在某些任务上仅有 4.49 GMAC 和 110 万个参数,确保它可以部署在计算资源有限的环境中,同时保持高精度。

消融研究表明,引入 MIFA 模块和 PSFFN 对模型的成功至关重要。将这两个元素结合起来,可显著提高所有数据集的性能。在 MHIST 数据集上,该模型仅用 486 万个参数就实现了 99.56% 的 AUC,凸显了其在医学图像分类中的效率和有效性。

总之,Microscopic-Mamba 模型显著推进了医学图像分类。通过结合 CNN 和 SSM 的优势,这种混合架构成功解决了以前方法的局限性,提供了一种计算效率高且高度准确的解决方案。

该模型能够处理和整合局部和全局特征,非常适合进行显微图像分析。Microscopic-Mamba 在多个数据集上表现出色,有望成为自动化医疗诊断的标准工具,从而简化流程并提高疾病识别的准确性。

论文链接:https://arxiv.org/pdf/2409.07896v1

相关内容:https://www.marktechpost.com/2024/09/18/microscopic-mamba-released-a-groundbreaking-hybrid-model-combining-convolutional-neural-network-cnns-and-ssms-for-efficient-and-accurate-medical-microscopic-image-classification/

相关资讯

在12个视频理解任务中,Mamba先打败了Transformer

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]。探索视频理解的新境界,Mamba 模型引领计算机视觉研究新潮流!传统架构的局限已被打破,状态空间模型 Mamba 以其在长序列处理上的独特优势,为视频理解领域带来了革命性的变革。来自南京

非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1

Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首个基于 Mamba 架构的开源大模型 Codestral 7B。今天,阿布扎比技术创新研究所(TII)发布了一个新的开源 Mamba 模型 ——Falcon Mamba 7B。先来总结一波 Falcon Mamba 7B 的亮点

Falcon Mamba 7B 开源模型登顶:换掉 Transformer,任意长序列都能处理

只是换掉 Transformer 架构,立马性能全方位提升,问鼎同规模开源模型!(注意力机制不存在了)这就是最新 Falcon Mamba 7B 模型。它采用 Mamba 状态空间语言模型架构来处理各种文本生成任务。通过取消传统注意力机制,有效提升了模型处理长序列时计算效率低下的问题。它可以处理无限长序列,但内存需求不增加。无论上下文多长,生成每个 token 的时间基本一样。由此,Falcon Mamba 模型性能全方位提升,打败一众 Transformer 架构模型,如 Llama-3.1(8B)、Mistra