iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

作者：量子位

2024-11-20 02:30

比PS更懂你的AI图片编辑工具——MagicQuill（魔法羽毛）来了！ 1分钟出图：不用打字、简单勾画几笔就能编辑图片。还支持直接在iPad上在线编辑！

比PS更懂你的AI图片编辑工具——MagicQuill（魔法羽毛）来了！

1分钟出图：不用打字、简单勾画几笔就能编辑图片。

还支持直接在iPad上在线编辑！

研究团队来自香港科技大学、蚂蚁集团、浙江大学和香港大学等机构。

我们先一起看个例子感受一下——

有了MagicQuill，现在当你想要给人物更换衣服时，就可以直接画出领子，它会自动帮你补全。

加条项链、去除路人，几秒钟就搞定：

你还可以更换发色、让人物戴上花环，甚至更改花朵的颜色：

只需要1分钟多的时间，就可以实现上面这么多编辑效果，尤其是对于想要快速修改照片的用户来说，简直太方便了！

还有更多有趣的例子，机器人、汽车、蛋糕等，都可以快速修改！

有多位网友评论说，AI图像编辑真的进步飞快，“能读懂用户心思”是非常具有未来感的用户体验。

甚至还有网友说，颤抖吧，PS！

MagicQuill目标是理解精细修改意图

虽然目前AI图像编辑工具是百花齐放，但想要实现精细编辑，很多工具的效果还是比较令人捉急。

MagicQuill团队的目标是实现一个高效且精确的图像编辑系统，能够在用户进行细微修改时提供更好的使用体验。

这不仅包括实现细粒度的图像编辑控制、还要提供直观的用户界面、并实时预测用户意图。

最终团队选择基于扩散模型、文本和掩码的图像编辑方法、以及多模态大型语言模型（MLLMs）进行实现，并设计了简约实用的用户界面。

MagicQuill的具体构成

一起来看看MagicQuill系统的具体构成是什么样的。主要分为3个部分：

1.编辑处理器

编辑处理器采用双分支架构，包括内容感知修复分支和结构引导分支。

内容感知修复分支利用UNet架构，结合掩码图像特征和预训练的扩散网络进行像素级修复。

结构引导分支则通过ControINet插入条件控制，确保编辑操作的精确性。

2.绘画助手

绘画助手通过多模态大型语言模型（MLLM）实时预测用户意图。

具体的任务称为“Draw&Guess”，也就是通过图像上下文解释用户笔画并自动生成相关提示。

团队采用的数据集通过生成边缘图和模拟用户笔画进行构建，并使用LLaMA模型进行微调。

3.创意收集器

创意收集器为用户提供了一个简约直观的界面，它兼容多个平台，团队也提供了在线demo，你可以在电脑或iPad上直接使用！

界面主要包括提示区、工具栏、图层管理、主画布、生成图像预览区、执行按钮和参数调整区。

按钮设计非常简洁，有上传图片、“增加”画笔、“减少”画笔、改颜色画笔、橡皮等等。

下方的参数调整区域更适合有丰富的生图经验的专业人士：

比如在Base Model Name里，你可以选择不同的基础模型，有适合生成真实风格的SD1.5/realisticVisionV60B1_v51VAE.safetensors、适合生成幻想风格的SD1.5/DreamShaper.safetensors等。

你还可以调整Negative Prompt避免生成部分内容、还有Fine Edge精细边缘调整、Grow Size调整笔触大小等等。完整工作流程如下图所示。

实际效果怎样呢？

为了更准确地测试MagicQuill的具体效果，团队还设计了3个验证实验：

1.可控生成评估

将MagicQuill与四个基线方法（SmartEdit、SketchEdit、BrushNet及其组合）进行比较，评估编辑处理器的可控生成能力，尤其关注边缘对齐和颜色保真度。

结果显示，MagicQuill的编辑处理器在所有指标上均优于基线方法，具有更高的边缘对齐度和颜色保真度。

2.预测准确性评估

为了评估MagicQuill在模拟手绘输入下的语义预测准确性，团队将它的绘画助手与三种最先进的MLLMs （LLaVA-1.5、LLaVA-Next、GPT-4o）进行了比较。

结果显示，绘画助手在所有测试的MLLMS中表现最佳，可以更准确地捕捉和预测用户绘图的语义含义。

3.创意收集器有效性评估

团队还通过用户研究评估了创意收集器的效率和可用性，并比较了它与基线系统的差异。

用户研究结果显示，MagicQuill在所有评估维度上都显著优于基线系统，包括复杂性和效率、一致性和集成、易用性以及总体满意度4个方面。

看来体验过的用户反馈都不错呢！

未来工作

团队还表示，这将是一个长期的工作，未来他们的目标是扩展系统功能，纳入更多的编辑类型，如基于参考的编辑，这将允许用户使用外部图像指导修改。

他们还计划实现分层图像生成，可以让编辑更加灵活、支持更多复杂合成。

系统也会支持排版，能够处理更多图像中的文本元素。

目前MagicQuill的代码、论文和Demo都已上线，感兴趣的小伙伴可以马上试用起来了！链接就在下方。

相关标签：

AI 图片

相关资讯

极空间 NAS 上线“AI 实验室”功能：自然语言搜图、以图搜图、文字识别

极空间 NAS 上线“AI 实验室”功能：自然语言搜图、以图搜图、文字识别

极空间 NAS 官方宣布，全新 AI 功能 ——【AI 实验室】已正式上线，功能包括：自然语言搜索、相似图片搜索和图片文字识别。据介绍，【AI 实验室】可以帮助用户快速找出极相册中需要的图片，IT之家附内容如下：自然语言搜索智能搜图，开启后，可以使用自然语言搜索图片。点击智能 AI，开启智能搜图，在搜索框中输入文字“狗”，通过 AI 计算后，稍等片刻，就会把极相册中带“狗”的照片展示出来。相似图片搜索以图搜图，开启后，可以通过一张照片找到相似内容或是风格的其他图片。点击智能 AI，开启以图搜图，在极相册中找到一张你

应对隐私 / 版权问题，5 月起 Meta Threads / Instagram 等平台将标记“疑似由 AI 生成的内容”

应对隐私 / 版权问题，5 月起 Meta Threads / Instagram 等平台将标记“疑似由 AI 生成的内容”

感谢AI 兴起产生的各种隐私 / 版权问题如今已成为科技行业许多人越来越关注的重点，而 Meta 公司今日发布新闻稿，宣布将在 5 月起在自家 Instagram、Threads 及 Facebook 平台为 AI 内容添加“水印标记”。Meta 在新闻稿中声称，这些变化来自公司内部监督委员会的建议、公共调查的结果和“学术界、民间社会组织和其他方面”的建议。IT之家注意到，Meta 公司将使用算法及真人检测“可能由 AI 生成的内容“，而用户也可以自行在图片中注释”相关图片由 AI 生成”，此类消息将作为水印添加至

夸克大模型应用为先加持夸克网盘深挖相册使用场景

夸克大模型应用为先加持夸克网盘深挖相册使用场景

2024年将是大模型应用落地的爆发年，这已经成为业界共识。夸克大模型自去年11月份发布以来，结合自身业务小步快跑，在夸克App上已经落地了多个应用。最近，夸克网盘结合春节场景和大模型技术，升级几项图片处理智能工具。夸克网盘即将上线的“春节图片故事”，是为用户春节期间拍摄上传的图片自动智能筛选生成合辑。该功能除了基于时间、地点两个维度筛选，还会基于人物智能筛选，并剔除掉过亮或过暗等不符合要求的图片。夸克网盘还会利用AI算法为图片合辑智能生成文案，比如鲜花影集的文案是“花与美妙人间”。此前，AI技术还被应用在夸克网盘相

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元从DeepSeek-V3发布谈大模型的技术突破与未来机遇 3 到 5 秒即可同声传译 40 余种语言，时空壶推出 W4 Pro 实时翻译耳机 GPT-4o最自私，Claude更慷慨！DeepMind发布全新「AI道德测试」全网都在扒的DeepSeek团队，是清北应届生撑起一片天 Just keep scaling！思维链作者Jason Wei 40分钟讲座剖析LLM扩展范式奥特曼回应一切：宫斗、马斯克、ChatGPT两周年

标签云