扩散模型

「扩散模型+多模态提示」精准增强皮肤病变分割,超越GAN,SSIM提升9%,Dice提升5%!

一眼概览该论文提出了一种基于扩散模型的医学影像生成方法,结合视觉和文本提示,以精准控制皮肤镜病变图像的生成,提升皮肤病变的分割性能。 实验结果显示,该方法比传统GAN生成方法在图像质量(SSIM提升9%)和分割性能(Dice系数提升5%)上均有显著改进。 核心问题问题背景医学影像分析受限于公开数据集稀缺及高质量标注成本高,数据增强方法(如GAN)虽能扩充数据,但难以精准控制病变类型、位置及属性,导致对下游任务(如病变分割)的提升有限。

线性扩散模型LiT来了,用极简线性注意力助力扩散模型AIPC时代端侧部署

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

MetaDiff:用扩散模型重塑元学习,攻克小样本学习瓶颈!

一眼概览MetaDiff 提出了一种基于条件扩散模型的创新元学习方法,通过将梯度下降优化建模为去噪过程,有效提升了小样本学习(FSL)的性能,显著减少了内循环优化中的内存负担和梯度消失风险。 核心问题小样本学习的主要挑战在于:如何在训练数据有限的情况下快速适应新任务,而不引入过拟合或内存瓶颈。 传统基于梯度的元学习方法需要计算内循环路径上的二阶导数,导致内存消耗高和梯度消失问题,从而影响性能。

扩散模型也能推理时Scaling,谢赛宁团队重磅研究可能带来文生图新范式

对于 LLM,推理时 scaling 是有效的! 这一点已经被近期的许多推理大模型证明:o1、o3、DeepSeek R1、QwQ、Step Reasoner mini…… 但这个说法也适用于扩散模型吗? 近日,纽约大学谢赛宁领导的一个团队对这一方向进行了探索。

Nature重磅:微软生成式AI材料设计工具,稳定性提升2倍,实验验证误差低于20%!

编辑 | 2049材料创新是推动技术进步的关键驱动力之一。 从 20 世纪 80 年代锂钴氧化物的发现到如今的锂离子电池技术,材料科学的每一次突破都深刻影响着我们的日常生活。 然而,传统的材料发现方法依赖于耗时且昂贵的实验试错过程,而计算筛选方法虽然加速了这一过程,但仍然受限于已知材料的数量。

ICLR 惊现[10,10,10,10]满分论文,ControlNet 作者新作,Github 5.8k 颗星

机器之心报道,编辑:佳琪、蛋酱。

Make U-Nets Great Again!北大&华为提出扩散架构U-DiT,六分之一算力即可超越DiT

AIxiv专栏是机器之心发布学术、技术内容的栏目。 过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

扩散模型失宠?端侧非自回归图像生成基础模型Meissonic登场,超越SDXL!

最近,YouTube和Reddit上出现了一个引起广泛讨论的图像生成模型,来自日本、韩国、美国、印度、中东和英国的网友们纷纷参与讨论。 图片Youtube热烈讨论那么,这到底是怎么回事呢? 让我们一起来看看吧。

新扩散模型OmniGen一统图像生成,架构还高度简化、易用

大型语言模型(LLM)的出现统一了语言生成任务,并彻底改变了人机交互。 然而,在图像生成领域,能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。 近日,智源推出了新的扩散模型架构 OmniGen,一种新的用于统一图像生成的多模态模型。

ECCV 2024 | 机器遗忘之后,扩散模型真正安全了吗?

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本文第一作者为密歇根州立大学计算机系博士生张益萌,贾景晗,两人均为OPTML实验室成员,指导教师为刘思佳助理教授。OPtimization and Trustworthy Machine

7000字详解!幼儿园都能看懂的 Stable Diffusion 工作原理

前言 事先声明!本文没有苦涩难懂的各种专业术语和代码公式,请大家放心食用。 在过去的一年里,AIGC 在绘画领域的蓬勃发展对设计行业的冲击相信大家都有目共睹。各个公司都在要求设计师必须会使用 AIGC 的相关工具,其中以 Stable Diffusion 为基础的系列工具和 Midjourney 应用范围最广。AI 绘画领域能够取得如此巨大的进展,很大的功劳要归属于 Stability AI 发布了开源的 Stable Diffusion。它除了降低硬件要求,使其可以在相对普通的硬件上运行外。也正是因为它的开源性,

看张手绘草图就能合成图形程序,加州伯克利让扩散模型掌握新技能

事实证明,扩散模型不仅能用于生成图像和视频,也能用于合成新程序。假设我们给模型一张手绘的「5」状图形,它就能通过不断突变来修改程序,最终得到能输出目标图形的程序。该模型来自加州大学伯克利分校的一个研究团队,他们提出的这种程序合成新方法使用了神经扩散模型来直接操作句法树。论文一作为该校博士生 Shreyas Kapur,其导师为该校计算机科学教授 Stuart Russell。论文标题:Diffusion On Syntax Trees For Program Synthesis论文地址:::。而该团队发现,通过利用

加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了

最近,扩散模型(Diffusion Model)在图像生成领域取得了显著的进展,为图像生成和视频生成任务带来了前所未有的发展机遇。尽管取得了令人印象深刻的结果,扩散模型在推理过程中天然存在的多步数迭代去噪特性导致了较高的计算成本。近期出现了一系列扩散模型蒸馏算法来加速扩散模型的推理过程。这些方法大致可以分为两类:i) 轨迹保持蒸馏;ii) 轨迹重构蒸馏。然而,这两类方法会分别受到效果天花板有限或者或输出域变化这两个问题的限制。为了解决这些问题,字节跳动技术团队提出了一种名为 Hyper-SD 的轨迹分段一致性模型。

扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹

设想一下,当你站在房间内,准备向门口走去,你是通过自回归的方式逐步规划路径吗?实际上,你的路径是一次性整体生成的。近期的研究表明,采用扩散模型的规划模块能够同时生成长序列的轨迹规划,这更加符合人类的决策模式。此外,扩散模型在策略表征和数据合成方面也能为现有的决策智能算法提供更优的选择。来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了扩散模型在强化学习相关领域的应用。综述指出现有强化学习算法面临长序列规划误差累积、

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

作者:赖文昕编辑:郭思、陈彩娴说起扩散模型生成的东西,你会立刻想到什么? 是OpenAI的经典牛油果椅子? 是英伟达Magic3D生成的蓝色箭毒蛙?

用扩散模型生成网络参数,LeCun点赞尤洋团队新研究

如果你有被 Sora 生成的视频震撼到,那你就已经见识过扩散模型在视觉生成方面的巨大潜力。当然,扩散模型的潜力并不止步于此,它在许多其它不同领域也有着让人期待的应用前景,更多案例可参阅机器之心不久前的报道《爆火Sora背后的技术,一文综述扩散模型的最新发展方向》。近日,来自新加坡国立大学的尤洋团队、加州大学伯克利分校、Meta AI Research 的一项新研究找到了扩散模型的一个新应用方向:用来生成神经网络的模型参数!论文地址:::Neural Network Diffusion这样一来,似乎就可以使用现有的神

爆火Sora背后的技术,一文综述扩散模型的最新发展方向

为了使机器具有人类的想象力,深度生成模型取得了重大进展。这些模型能创造逼真的样本,尤其是扩散模型,在多个领域表现出色。扩散模型解决了其他模型的限制,如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。因此,扩散模型在计算机视觉、自然语言处理等方面备受关注。扩散模型由两个过程组成:前向过程和反向过程。前向过程把数据转化为简单的先验分布,而反向过程则逆转这一变化,用训练好的神经网络模拟微分方程来生成数据。与其他模型相比,扩散模型提供了更稳定的训练目标和更好的生成效果。

真正实现一步文生图,谷歌UFOGen极速采样,生成高质量图像

最近一年来,以 Stable Diffusion 为代表的一系列文生图扩散模型彻底改变了视觉创作领域。数不清的用户通过扩散模型产生的图片提升生产力。但是,扩散模型的生成速度是一个老生常谈的问题。因为降噪模型依赖于多步降噪来逐渐将初始的高斯噪音变为图片,因此需要对网络多次计算,导致生成速度很慢。这导致大规模的文生图扩散模型对一些注重实时性,互动性的应用非常不友好。随着一系列技术的提出,从扩散模型中采样所需的步数已经从最初的几百步,到几十步,甚至只需要 4-8 步。最近,来自谷歌的研究团队提出了 UFOGen 模型,一