微软开源图片模型ART，可生成多图层透明图片

2025-03-05 09:56

在图像生成领域，多层图像生成技术正逐渐改变用户与生成模型的互动方式，允许用户隔离、选择并编辑特定的图像层。近日，微软研究人员推出了一种名为 “Anonymous Region Transformer”（ART）的新型技术，它能够根据全球文本提示和匿名区域布局，直接生成可变多层透明图像。 ART 的设计灵感来源于 “图式理论”，通过采用匿名区域布局，使生成模型可以自主决定哪些视觉信息与哪些文本信息对齐。

在图像生成领域，多层图像生成技术正逐渐改变用户与生成模型的互动方式，允许用户隔离、选择并编辑特定的图像层。近日，微软研究人员推出了一种名为 “Anonymous Region Transformer”（ART）的新型技术，它能够根据全球文本提示和匿名区域布局，直接生成可变多层透明图像。

ART 的设计灵感来源于 “图式理论”，通过采用匿名区域布局，使生成模型可以自主决定哪些视觉信息与哪些文本信息对齐。这一方法与以往的语义布局形成鲜明对比。传统的语义布局通常需要明确的对应关系，而 ART 的匿名区域布局则提供了更大的灵活性。

值得注意的是，ART 引入了一种逐层区域裁剪机制，该机制只选择与每个匿名区域相关的视觉信息，从而显著降低了注意力计算的成本。这种方法不仅加快了生成速度，使其比全注意力方法快12倍以上，还有效减少了图层之间的冲突，能够处理50个以上不同层次的图像生成。

此外，ART 还提出了一种高质量的多层透明图像自编码器，支持以联合方式直接编码和解码可变多层图像的透明度。这一创新设计为精确控制和可扩展的层生成提供了新的可能性，进一步推动了交互式内容创作的发展。

项目:https://art-msra.github.io/

划重点:
🌟 ART可根据全球文本提示和匿名区域布局，直接生成多层透明图像。
⚡️ 采用逐层区域裁剪机制，显著提高了图像生成效率，比传统方法快12倍。
💡 新型高质量自编码器支持多层透明图像的精确控制与生成，推动交互式内容创作。

这AI绝对偷了格莱美奖杯！直接把LLaMA喂成乐坛顶流：开源版Suno来了！

家人们震惊了！现在 AI 成精啦，不仅能写能画，现在连唱功都是格莱美级的了！魅惑空灵电音女声，也太好听了吧！

3/27/2025 1:24:00 PM

机器之心

Jimeng 3.0 Internal Testing: Direct Output of 2K Commercial Posters, Enhanced Image Quality and More Precise Design Layout

4/3/2025 3:02:03 PM

AI在线

效果惊人！内置5种模型的AI图像生成神器「Dreamlike.art」

大家好，这里是和你们聊设计的花生~ 之前为大家推荐了一款上手非常容易的 AI 图像生成工具 Dream Studio，它操作界面简单易懂，非常适合刚接触 AI 图像生成工具的新手。最近又出现了一个新的同类型的 AI 图像生成神器 Dreamlike.art，操作界面同样好用且图像质量极高，即使是小白也能轻松生成精美的图像，效果可以跟上 Midjourney 的 V4 模型了。最最重要的是目前可以免费，使用一起来看看吧~ Dream Studio 介绍：Dreamlike.art 官网直达：（使用梯子速度更快，需

12/20/2022 8:20:54 AM

夏花生

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI 模态编码器|CLIP详细解读 50组多风格提示词，全面测评Midjourney V7生图效果！斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 神器推荐 LLaMA 大语言模型具身智能字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构

顶部

微软开源图片模型ART，可生成多图层透明图片

相关资讯

这AI绝对偷了格莱美奖杯！直接把LLaMA喂成乐坛顶流：开源版Suno来了！

Jimeng 3.0 Internal Testing: Direct Output of 2K Commercial Posters, Enhanced Image Quality and More Precise Design Layout

效果惊人！内置5种模型的AI图像生成神器「Dreamlike.art」