「扩散模型+多模态提示」精准增强皮肤病变分割,超越GAN,SSIM提升9%,Dice提升5%!

一眼概览该论文提出了一种基于扩散模型的医学影像生成方法,结合视觉和文本提示,以精准控制皮肤镜病变图像的生成,提升皮肤病变的分割性能。 实验结果显示,该方法比传统GAN生成方法在图像质量(SSIM提升9%)和分割性能(Dice系数提升5%)上均有显著改进。 核心问题问题背景医学影像分析受限于公开数据集稀缺及高质量标注成本高,数据增强方法(如GAN)虽能扩充数据,但难以精准控制病变类型、位置及属性,导致对下游任务(如病变分割)的提升有限。

1. 一眼概览

该论文提出了一种基于扩散模型的医学影像生成方法,结合视觉和文本提示,以精准控制皮肤镜病变图像的生成,提升皮肤病变的分割性能。实验结果显示,该方法比传统GAN生成方法在图像质量(SSIM提升9%)和分割性能(Dice系数提升5%)上均有显著改进

2. 核心问题

问题背景

医学影像分析受限于公开数据集稀缺高质量标注成本高,数据增强方法(如GAN)虽能扩充数据,但难以精准控制病变类型、位置及属性,导致对下游任务(如病变分割)的提升有限

论文关注的问题

如何利用扩散模型生成高质量且可控的皮肤镜病变图像,提升下游皮肤病变分割任务的表现?

3. 技术亮点

✅ 视觉 + 文本提示,精准控制病变生成

• 结合视觉提示(病变掩码)和文本提示(病变类型和属性),提高图像生成的控制性,实现定制化病变合成。

✅ 改进扩散模型,提高图像质量

• 采用Stable Diffusion + ControlNet 结构,增强模型的可控性和泛化能力,在医学影像领域首次实现基于扩散模型的病变图像生成。

✅ 自动病变掩码生成,提高数据多样性

• 提出自动病变掩码生成模块,通过随机形状、模糊、弹性变形等方式生成多样化的病变形态,进一步提升数据增强效果。

4. 方法框架

图片图片

该方法基于Stable Diffusion + ControlNet,结合视觉和文本提示,进行皮肤病变图像的生成和分割任务。其主要流程如下:

1️⃣ 训练阶段

• 使用ISIC皮肤镜数据集训练扩散模型,输入包含:

a.视觉提示(病变掩码,指定病变位置与形状)

 b.文本提示(病变类型和属性)

• 采用ControlNet 结构控制病变的合成方式。

2️⃣ 数据增强

• 采用自动病变掩码生成,扩充数据,提高训练样本的多样性。

3️⃣ 分割任务

• 通过扩散模型合成的病变图像,提升皮肤病变分割模型的泛化能力。

📌 核心改进点:相较于传统GAN方法(如Pix2PixHD),该方法在病变生成质量、数据控制性和分割任务提升方面均表现优异。

5. 实验结果速览

图片图片

📊 生成图像质量对比

模型

MSE(↓)

PSNR(↑)

SSIM(↑)

Pix2PixHD

0.09

58.80

0.71

本文方法

0.06

61.64

0.80

• SSIM 提升 9%,证明生成图像的质量更高,结构信息保留更好。

📊 皮肤病变分割性能提升

方法

仅S数据集

S+1K 生成数据

S+3K 生成数据

S+5K 生成数据

Pix2PixHD

0.861

0.871

0.903

0.912

本文方法

0.903

0.912

0.913

0.914

• 比GAN方法(Pix2PixHD)在Dice系数上提升超过5%,证明该方法生成的图像更有利于分割任务的提升。

📌 关键结论

• 该方法生成的图像质量更高,病变细节保留更好。

• 结合合成数据后,分割模型的性能显著提升,且数据量越大,提升越明显。

6. 实用价值与应用

📌 真实世界应用

• 医学影像增强:适用于皮肤病变、肿瘤影像等领域,提高模型在数据稀缺情况下的泛化能力。

• 智能辅助诊断:可帮助医生获取更多高质量的病变样本,提高疾病检测的准确率。

• 数据增强与迁移学习:可用于不同病变类型的合成,提高模型在多种医疗数据上的适应性。

7.开放问题

🔍 思考与讨论

• 该方法能否推广至其他类型的医学影像(如CT、MRI)

• 扩散模型在小样本和零样本学习上的潜力如何?

• 未来是否可以结合物理模型,进一步提高医学影像的真实性?

相关资讯

MetaDiff:用扩散模型重塑元学习,攻克小样本学习瓶颈!

一眼概览MetaDiff 提出了一种基于条件扩散模型的创新元学习方法,通过将梯度下降优化建模为去噪过程,有效提升了小样本学习(FSL)的性能,显著减少了内循环优化中的内存负担和梯度消失风险。 核心问题小样本学习的主要挑战在于:如何在训练数据有限的情况下快速适应新任务,而不引入过拟合或内存瓶颈。 传统基于梯度的元学习方法需要计算内循环路径上的二阶导数,导致内存消耗高和梯度消失问题,从而影响性能。

从零开始,用英伟达T4、A10训练小型文生视频模型,几小时搞定

很翔实的一篇教程。OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经发布或未来将出现的文本生成视频模型,是继大语言模型 (LLM) 之后 2024 年最流行的 AI 趋势之一。在这篇博客中,作者将展示如何将从头开始构建一个小规模的文本生成视频模型,涵盖了从理解理论概念、到编写整个架构再到生成最终结果的所有内容。由于作者没有大算力的 GPU,所以仅编写了小规模架构。以下是在不同处理器上训练模型所需时间的比较。作者表示,在 CPU 上运行显然需要更长

论文分享 | 丢弃卷积,纯Transformer构建GAN网络

最近,计算机视觉(CV)领域的研究者对 Transformer 产生了极大的兴趣并陆续取得了不少突破。比如,2020 年 5 月,Facebook AI 的研究者推出了 Transformer 的视觉版本——Detection Transformer,在性能上媲美当时的 SOTA 方法,但架构得到了极大简化;10 月,谷歌提出了 Vision Transformer (ViT),可以直接利用 transformer 对图像进行分类,而不需要卷积网络。