扩散模型

7000字详解！幼儿园都能看懂的 Stable Diffusion 工作原理

前言事先声明！本文没有苦涩难懂的各种专业术语和代码公式，请大家放心食用。在过去的一年里，AIGC 在绘画领域的蓬勃发展对设计行业的冲击相信大家都有目共睹。各个公司都在要求设计师必须会使用 AIGC 的相关工具，其中以 Stable Diffusion 为基础的系列工具和 Midjourney 应用范围最广。AI 绘画领域能够取得如此巨大的进展，很大的功劳要归属于 Stability AI 发布了开源的 Stable Diffusion。它除了降低硬件要求，使其可以在相对普通的硬件上运行外。也正是因为它的开源性，

8/22/2024 1:02:36 AM

五幺六

看张手绘草图就能合成图形程序，加州伯克利让扩散模型掌握新技能

事实证明，扩散模型不仅能用于生成图像和视频，也能用于合成新程序。假设我们给模型一张手绘的「5」状图形，它就能通过不断突变来修改程序，最终得到能输出目标图形的程序。该模型来自加州大学伯克利分校的一个研究团队，他们提出的这种程序合成新方法使用了神经扩散模型来直接操作句法树。论文一作为该校博士生 Shreyas Kapur，其导师为该校计算机科学教授 Stuart Russell。论文标题：Diffusion On Syntax Trees For Program Synthesis论文地址：：：。而该团队发现，通过利用

7/1/2024 10:45:00 AM

机器之心

加速扩散模型，最快1步生成SOTA级图片，字节Hyper-SD开源了

最近，扩散模型（Diffusion Model）在图像生成领域取得了显著的进展，为图像生成和视频生成任务带来了前所未有的发展机遇。尽管取得了令人印象深刻的结果，扩散模型在推理过程中天然存在的多步数迭代去噪特性导致了较高的计算成本。近期出现了一系列扩散模型蒸馏算法来加速扩散模型的推理过程。这些方法大致可以分为两类：i) 轨迹保持蒸馏；ii) 轨迹重构蒸馏。然而，这两类方法会分别受到效果天花板有限或者或输出域变化这两个问题的限制。为了解决这些问题，字节跳动技术团队提出了一种名为 Hyper-SD 的轨迹分段一致性模型。

4/25/2024 11:53:00 AM

机器之心

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹

设想一下，当你站在房间内，准备向门口走去，你是通过自回归的方式逐步规划路径吗？实际上，你的路径是一次性整体生成的。近期的研究表明，采用扩散模型的规划模块能够同时生成长序列的轨迹规划，这更加符合人类的决策模式。此外，扩散模型在策略表征和数据合成方面也能为现有的决策智能算法提供更优的选择。来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了扩散模型在强化学习相关领域的应用。综述指出现有强化学习算法面临长序列规划误差累积、

3/11/2024 11:46:00 AM

机器之心

用扩散模型生成神经网络？NUS 尤洋团队：这不是开玩笑

作者：赖文昕编辑：郭思、陈彩娴说起扩散模型生成的东西，你会立刻想到什么？是OpenAI的经典牛油果椅子？是英伟达Magic3D生成的蓝色箭毒蛙？

3/7/2024 4:21:00 PM

赖文昕

用扩散模型生成网络参数，LeCun点赞尤洋团队新研究

如果你有被 Sora 生成的视频震撼到，那你就已经见识过扩散模型在视觉生成方面的巨大潜力。当然，扩散模型的潜力并不止步于此，它在许多其它不同领域也有着让人期待的应用前景，更多案例可参阅机器之心不久前的报道《爆火Sora背后的技术，一文综述扩散模型的最新发展方向》。近日，来自新加坡国立大学的尤洋团队、加州大学伯克利分校、Meta AI Research 的一项新研究找到了扩散模型的一个新应用方向：用来生成神经网络的模型参数！论文地址：：：Neural Network Diffusion这样一来，似乎就可以使用现有的神

2/25/2024 7:56:00 PM

机器之心

爆火Sora背后的技术，一文综述扩散模型的最新发展方向

为了使机器具有人类的想象力，深度生成模型取得了重大进展。这些模型能创造逼真的样本，尤其是扩散模型，在多个领域表现出色。扩散模型解决了其他模型的限制，如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。因此，扩散模型在计算机视觉、自然语言处理等方面备受关注。扩散模型由两个过程组成：前向过程和反向过程。前向过程把数据转化为简单的先验分布，而反向过程则逆转这一变化，用训练好的神经网络模拟微分方程来生成数据。与其他模型相比，扩散模型提供了更稳定的训练目标和更好的生成效果。

2/22/2024 10:53:00 AM

机器之心

真正实现一步文生图，谷歌UFOGen极速采样，生成高质量图像

最近一年来，以 Stable Diffusion 为代表的一系列文生图扩散模型彻底改变了视觉创作领域。数不清的用户通过扩散模型产生的图片提升生产力。但是，扩散模型的生成速度是一个老生常谈的问题。因为降噪模型依赖于多步降噪来逐渐将初始的高斯噪音变为图片，因此需要对网络多次计算，导致生成速度很慢。这导致大规模的文生图扩散模型对一些注重实时性，互动性的应用非常不友好。随着一系列技术的提出，从扩散模型中采样所需的步数已经从最初的几百步，到几十步，甚至只需要 4-8 步。最近，来自谷歌的研究团队提出了 UFOGen 模型，一

11/20/2023 3:24:00 PM

机器之心

AIGC时代的视频扩散模型，复旦等团队发布领域首篇综述

AI 生成内容已经成为当前人工智能领域的最热门话题之一，也代表着该领域的前沿技术。近年来，随着 Stable Diffusion、DALL-E3、ControlNet 等新技术的发布，AI 图像生成和编辑领域实现了令人惊艳的视觉效果，并且在学术界和工业界都受到了广泛关注和探讨。这些方法大多基于扩散模型，而这正是它们能够实现强大可控生成、照片级生成以及多样性的关键所在。然而，与简单的静态图像相比，视频具有更为丰富的语义信息和动态变化。视频能够展示实物的动态演变过程，因此在视频生成和编辑领域的需求和挑战更为复杂。尽管在

10/23/2023 3:43:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练