扩散模型

DiffUCD:扩散模型助力无监督高光谱变化检测,超越SOTA,逼近监督方法!

一眼概览DiffUCD 提出了一种创新的无监督高光谱影像变化检测(HSI-CD)方法,利用 语义相关性扩散模型(SCDM) 和 跨时间对比学习(CTCL),在无需标注的情况下提高检测精度,在多个基准数据集上超越现有方法。 核心问题高光谱影像变化检测(HSI-CD)旨在识别同一区域在不同时刻的地表变化。 然而,受限于以下挑战:• 现有方法依赖大量标注数据,而高质量的人工标注成本高昂。

六大诀窍帮你释放扩散模型的创造力

译者 | 朱先忠审校 | 重楼简介Stable Diffusion模型1.5/2.0/2.1/XL 1.0版本、DALL-E模型、Imagen模型……在过去几年中,扩散模型在图像生成方面展现出了惊人的质量。 然而,虽然这些模型在通用概念上产生了高质量的图像,但它们却难以为更专业的查询生成高质量的图像,例如生成训练数据集中不常见的特定风格的图像。 我们可以在大量图像上重新训练整个模型,从头开始解释解决问题所需的概念。

Light-A-Video :无需训练实现视频重新打光

近年来,图像重光照技术的进步得益于大规模数据集和预训练的扩散模型,使得一致性光照的应用变得更加普遍。 然而,在视频重光照领域,由于训练成本高昂以及缺乏多样化和高质量的视频重光照数据集,进展相对缓慢。 仅仅将图像重光照模型逐帧应用于视频,会导致多种问题,如光源不一致和重光照外观不一致,最终导致生成的视频出现闪烁现象。

能量驱动注意力:提升文本到图像扩散模型的语义对齐新范式

一眼概览该论文提出了一种 基于能量的跨注意力(Energy-Based Cross-Attention, EBCA) 机制,以解决文本到图像扩散模型中的 语义不对齐(semantic misalignment) 问题。 通过建模 上下文向量的后验分布,该方法能够自适应地调整语义上下文,实现更精准的文本引导图像生成,无需额外训练,并在 多概念生成、文本引导修复、图像编辑 任务上取得了优异表现。 核心问题当前的 文本到图像扩散模型(Text-to-Image Diffusion Models)(如 Stable Diffusion、Imagen)在生成高质量图像方面取得了巨大成功。

零样本 | MusicMagus:基于扩散模型的零样本文本驱动音乐编辑新方案

一眼概览MusicMagus 提出了一种基于扩散模型的零样本文本到音乐编辑方法,可在不额外训练的情况下,通过文本编辑修改音乐的风格、音色和乐器,同时保持其他属性不变。 实验表明,该方法在风格转换和音色转换方面优于现有零样本方法,并在某些任务上超越监督学习方法。 核心问题当前的文本到音乐生成模型已取得长足进展,但音乐创作往往需要反复修改,而如何在保持音乐整体结构的同时,精准编辑特定属性仍然是个挑战。

「扩散模型+多模态提示」精准增强皮肤病变分割,超越GAN,SSIM提升9%,Dice提升5%!

一眼概览该论文提出了一种基于扩散模型的医学影像生成方法,结合视觉和文本提示,以精准控制皮肤镜病变图像的生成,提升皮肤病变的分割性能。 实验结果显示,该方法比传统GAN生成方法在图像质量(SSIM提升9%)和分割性能(Dice系数提升5%)上均有显著改进。 核心问题问题背景医学影像分析受限于公开数据集稀缺及高质量标注成本高,数据增强方法(如GAN)虽能扩充数据,但难以精准控制病变类型、位置及属性,导致对下游任务(如病变分割)的提升有限。

线性扩散模型LiT来了,用极简线性注意力助力扩散模型AIPC时代端侧部署

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

MetaDiff:用扩散模型重塑元学习,攻克小样本学习瓶颈!

一眼概览MetaDiff 提出了一种基于条件扩散模型的创新元学习方法,通过将梯度下降优化建模为去噪过程,有效提升了小样本学习(FSL)的性能,显著减少了内循环优化中的内存负担和梯度消失风险。 核心问题小样本学习的主要挑战在于:如何在训练数据有限的情况下快速适应新任务,而不引入过拟合或内存瓶颈。 传统基于梯度的元学习方法需要计算内循环路径上的二阶导数,导致内存消耗高和梯度消失问题,从而影响性能。

扩散模型也能推理时Scaling,谢赛宁团队重磅研究可能带来文生图新范式

对于 LLM,推理时 scaling 是有效的! 这一点已经被近期的许多推理大模型证明:o1、o3、DeepSeek R1、QwQ、Step Reasoner mini…… 但这个说法也适用于扩散模型吗? 近日,纽约大学谢赛宁领导的一个团队对这一方向进行了探索。

Nature重磅:微软生成式AI材料设计工具,稳定性提升2倍,实验验证误差低于20%!

编辑 | 2049材料创新是推动技术进步的关键驱动力之一。 从 20 世纪 80 年代锂钴氧化物的发现到如今的锂离子电池技术,材料科学的每一次突破都深刻影响着我们的日常生活。 然而,传统的材料发现方法依赖于耗时且昂贵的实验试错过程,而计算筛选方法虽然加速了这一过程,但仍然受限于已知材料的数量。

ICLR 惊现[10,10,10,10]满分论文,ControlNet 作者新作,Github 5.8k 颗星

机器之心报道,编辑:佳琪、蛋酱。

Make U-Nets Great Again!北大&华为提出扩散架构U-DiT,六分之一算力即可超越DiT

AIxiv专栏是机器之心发布学术、技术内容的栏目。 过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

扩散模型失宠?端侧非自回归图像生成基础模型Meissonic登场,超越SDXL!

最近,YouTube和Reddit上出现了一个引起广泛讨论的图像生成模型,来自日本、韩国、美国、印度、中东和英国的网友们纷纷参与讨论。 图片Youtube热烈讨论那么,这到底是怎么回事呢? 让我们一起来看看吧。

新扩散模型OmniGen一统图像生成,架构还高度简化、易用

大型语言模型(LLM)的出现统一了语言生成任务,并彻底改变了人机交互。 然而,在图像生成领域,能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。 近日,智源推出了新的扩散模型架构 OmniGen,一种新的用于统一图像生成的多模态模型。

ECCV 2024 | 机器遗忘之后,扩散模型真正安全了吗?

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本文第一作者为密歇根州立大学计算机系博士生张益萌,贾景晗,两人均为OPTML实验室成员,指导教师为刘思佳助理教授。OPtimization and Trustworthy Machine

7000字详解!幼儿园都能看懂的 Stable Diffusion 工作原理

前言 事先声明!本文没有苦涩难懂的各种专业术语和代码公式,请大家放心食用。 在过去的一年里,AIGC 在绘画领域的蓬勃发展对设计行业的冲击相信大家都有目共睹。各个公司都在要求设计师必须会使用 AIGC 的相关工具,其中以 Stable Diffusion 为基础的系列工具和 Midjourney 应用范围最广。AI 绘画领域能够取得如此巨大的进展,很大的功劳要归属于 Stability AI 发布了开源的 Stable Diffusion。它除了降低硬件要求,使其可以在相对普通的硬件上运行外。也正是因为它的开源性,

看张手绘草图就能合成图形程序,加州伯克利让扩散模型掌握新技能

事实证明,扩散模型不仅能用于生成图像和视频,也能用于合成新程序。假设我们给模型一张手绘的「5」状图形,它就能通过不断突变来修改程序,最终得到能输出目标图形的程序。该模型来自加州大学伯克利分校的一个研究团队,他们提出的这种程序合成新方法使用了神经扩散模型来直接操作句法树。论文一作为该校博士生 Shreyas Kapur,其导师为该校计算机科学教授 Stuart Russell。论文标题:Diffusion On Syntax Trees For Program Synthesis论文地址:::。而该团队发现,通过利用

加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了

最近,扩散模型(Diffusion Model)在图像生成领域取得了显著的进展,为图像生成和视频生成任务带来了前所未有的发展机遇。尽管取得了令人印象深刻的结果,扩散模型在推理过程中天然存在的多步数迭代去噪特性导致了较高的计算成本。近期出现了一系列扩散模型蒸馏算法来加速扩散模型的推理过程。这些方法大致可以分为两类:i) 轨迹保持蒸馏;ii) 轨迹重构蒸馏。然而,这两类方法会分别受到效果天花板有限或者或输出域变化这两个问题的限制。为了解决这些问题,字节跳动技术团队提出了一种名为 Hyper-SD 的轨迹分段一致性模型。