最近,靠着出其不意的扩图动机,“AI扩图”功用凭借搞笑的补全结果频频出圈,火爆全网。网友们踊跃尝试,180度的大反转也让网友们直呼离谱,话题热度高居不下。
在带来欢笑和热度的背后,也代表人们在时刻关注着AI究竟能不能真正帮助他们解决实际问题,优化利用体验。但可以预见的是,随着AIGC技术的快速发展,正在加速推动AI应用场景落地,我们也将迎来一场全新的生产力变革。
近日,美图公司旗下WHEE等产品上线AI扩图及AI改图功用,只需简单的提示性输入,用户就可以任意修改图象、移除画面元素、扩充画面,凭借便捷的操作与惊艳的动机,大大降低工具利用门槛,为用户带来高效、优质的图象创作体验。
由美图视觉大模型MiracleVision提供支持的AI改图动机
本次全新上线的AI扩图和AI改图功用鉴于美图自研的AI全部重绘技术,由美图影像研究院(MT Lab)依托美图视觉大模型MiracleVision倾力打造。现在,就一起来揭晓这项黑科技背后的奥秘吧!
美图AI全部重绘技术:MiracleVision(奇想智能)加持
众所周知,图象全部重绘是图象编辑细分功用中利用频率最高的功用之一,根据需要重绘的位置(即mask地区)不同可以进一步细分为内部地区重绘(inpaint)和外部地区重绘(outpaint)。
传统的图象全部重绘方法往往要求用户利用专业图象编辑工具手动重绘宗旨地区,或者根据用户划定的宗旨地区,利用鉴于GAN(生成对抗网络)的方法举行自动化的像素内容添补。前者需要用户具备一定的美术功底和对专业工具的熟练利用,门槛较高,对普通用户来说难度大;而后者添补出来的地区通常缺乏真实性,在纹理细节等方面表现欠佳,当用户划定的mask地区越大,添补出来的动机也会越来约失真。
除此之外,鉴于GAN的方法只能根据周围的像素信息举行添补,并不能够根据文本引导凭空生成出新的内容,这极大地限制了它的利用场景。
鉴于GAN方法的重绘结果
而当前大热的分散模型(Diffusion Model)虽然将图象生成动机推向了一个新高度,但在图象重绘领域中仍在存在一些问题,比如常见的Stable Diffusion 1.5、Stable Diffusion 2.0、SDXL等分散模型由于输入图象分辨率的限制,在生成纹理上有时无法与原图完全贴合,存在边界感;以及在执行宗旨肃清使命时,容易不受prompt(提示词)的限制,凭空生成一些其它的前景宗旨,无法输出纯背景像素。
Stable Diffusion 1.5的全部前景肃清结果
为了实现自然过渡的画面融合,达到“以假乱真”的宗旨,美图影像研究院(MT Lab)鉴于自研AI视觉大模型——MiracleVision(奇想智能)强大的图象生成能力以及多模态理解能力,实现了简单、高效且逼真的AI全部重绘动机。
用户只需要手动涂抹或通过智能分割算法,选择想要编辑的地区,再输入具体修改宗旨,就能够在保持图象主体特征的前提下,举行任意编辑。支持包括画面元素肃清、修改、移动、替换及画面扩充等重绘操作,结合高精度纹理生成技术,生成部分与原图高度融合,真正做到画面“不失真”,不仅极大提升用户的图象编辑效率,还能让废片“变废为宝”。
MiracleVision(奇想智能)肃清结果
MiracleVision(奇想智能)替换动机前
MiracleVision(奇想智能)替换动机后
MiracleVision(奇想智能)AI改图动机
强大模型能力,让图象编辑随心所欲
美图AI全部重绘模型鉴于分散模型(Diffision Model)技术构建了完整的inpaint & outpaint模型框架,将内部地区重绘、前景宗旨肃清以及外部地区扩展等使命统一到同一个方案中举行解决,并针对一些特定的动机问题做了专门的优化设计。
MiracleVision(奇想智能)模型属于文生图模型,虽然可以通过改造第一卷积层,并将unet整体微调的方式,使其适应inpaint使命,但这样需要修改unet原有的权重,在训练数据量不足时可能会导致模型性能的下降。
因此,为了充分利用MiracleVision(奇想智能)已有的生成能力,团队在全部重绘模型中不对MiracleVision(奇想智能)的unet模型举行直接微调,而是利用controlnet的方式增加一个mask的输入分支举行控制。
同时,为了节约训练成本,加快推理速度,利用压缩后的controlnet模块举行训练,尽可能地减少计算量。在训练的过程中,unet模型的参数会被固定,只有controlnet模块会举行更新,最终使整个模型获得inpaint的能力。
美图AI全部重绘模型架构图
outpaint使命则是crop使命的反向操作。crop使命是沿着图象边界对原图象举行剪裁,只保留需要的部分,是一种图象内容的减法操作;而outpiant使命则是沿着图象边界向外举行扩展,借助模型的生成能力来凭空创造出原本不存在的内容,是一种图象内容的加法操作。
本质上,outpaint使命也可以看作是一种特殊的inpaint使命,只不过mask地区位于图象的外围。
MiracleVision(奇想智能)AI扩图动机
由于outpaint使命中的mask地区只能从图象内部获取引导信息,其他的方向上都是图象边界,因此生成的内容更加具有随机性,会更加的发散。为了填补图象外围的空白地区,同时保证画面拓展的准确性,团队依托场景识别算法对图象风格及内容举行推断,并充分利用图象内容的相关性,通过在扩展边缘处镜像复制原图中的像素并叠加随机噪声,为模型提供适合的初始先验,从而保证生成内容的合理性,并使得边界过渡更加平滑。
通过多种训练策略,自由控制物体生成与肃清
一般的分散模型在执行inpaint使命时更擅长替换而不是肃清,当需要肃清某一宗旨时,模型很容易在mask地区中绘制出一些原本不存在的新前景宗旨,特别是当mask地区的面积比较大的时候这一现象尤为明显,即使这些宗旨并没有出现在prompt中。究其原因,主要是以下3个方面:
1.训练集的prompt中,一般只描述了图象中有什么,而不会描述图象中没有什么,因此让训练后的模型根据提示生成某一宗旨很容易,但是不让它生成宗旨却很难。即便有Classifier-Free Guidance策略,可以通过把不想要的物体添加到负词中的方式来抑制该宗旨的生成,但始终无法将所有可能的宗旨全部写到负词中,因此模型还是会倾向于生成一些意想不到的宗旨;
2.从训练数据的分布来看,由于大规模图象训练集中的绝大部分图象都是由前景和背景组合而成的,纯背景的图象占比较小,这意味着分散模型在训练时就已经学习到了一种潜在的规律,即一幅图象中大概率存在着某一个宗旨前景(即使prompt中并没有提到它),这也导致模型在执行inpaint使命时更倾向于在mask地区中生成些什么,从而使输出图象更接近于训练时的分布;
3.待添补的mask地区的形状有时也会包含一定的语义信息,比如在没有其他引导的情况下,模型会更倾向于在一个形状为猫的mask地区内添补一只新的猫,从而导致肃清使命失败。
为了使MiracleVision(奇想智能)同时具备宗旨生成以及宗旨肃清的能力,团队采用了多使命的训练策略:
1.在训练阶段,当mask地区落在纹理较少的纯背景地区上时,增加一个特定的prompt关键词作为触发引导词,并在模型推理阶段,将这个关键词作为正向引导词加入到prompt embedding 中,促使模型更多地生成背景地区。
2.由于纯背景图象在整个训练集中占比较小,为了提高其对于训练的贡献程度,在每个训练batch中,手动采样一定比例的背景图象加入到训练,使背景图象在训练样本中的占比总体保持稳定。
3.为了降低模型对于mask形状的语义依赖,在训练阶段还会随机生成各种不同形态mask,增加mask形状的多样性。
高精度纹理生成,融合更自然
由于训练集中高清的纹理数据只占全部训练数据的一小部分,因此在执行inpaint使命时,通常不会生成纹理非常丰富的结果,导致在原图纹理比较丰富的场景中,容易出现融合不自然、存在边界感的情况。
为了解决这个问题,团队鉴于自研纹理细节模型作为引导模型,以此来辅助MiracleVision(奇想智能)提高生成质量,抑制过拟合,使得生成地区和原图的其他地区之间能够更好地贴合在一起。
原图v.s未增加纹理细节v.sMiracleVision扩图动机
速度更快、动机更优、交互更高效!
分散模型类方案在推理时通常需要举行多步逆分散过程,导致单张图片的处理耗时过长。为了在保持生成质量的同时优化用户体验,美图影像研究院(MT Lab)团队为AI全部重绘技术打造了专项调优方案,最终达到性能与动机的最佳平衡。
首先,将MiracleVision(奇想智能)前后处理与推理过程中大量的矩阵计算,尽可能地移植到GPU上并行计算,从而有效地加快了计算速度,并减少CPU端的负载。同时,在组图的过程中,尽可能的对layer举行fuse,利用FlashAttention来降低显存占用,提升推理性能,并对Kernel实现举行Tuning,针对NVIDIA不同的显卡最大化GPU算力利用。
除此之外,依托自研的模型参数量化方法,将MiracleVision量化至8bit而不明显损失精度。由于不同的GPU显卡对8bit量化的支持存在差异性,因此创新性采用混合精度策略,在不同的服务器资源环境下自适应地选取最优算子,从而实现总体加速的最优解。
而对于分辨率较高的用户输入图象,由于受限于服务器资源与时间成本,很难在原始分辨率情况下直接举行推理。对此,团队通过先压缩图象分辨率至合适的大小,再鉴于MiracleVision(奇想智能)举行推理,其后利用超分算法复原图象至初始分辨率下,再与原图举行图象融合,从而既保持生成图象的清晰动机,又节约推理过程中的显存占用和执行时间。
美图与三星深度合作,以AI打造手机图象编辑新体验
1月25日,三星电子举办Galaxy S24系列中国新品发布会。美图公司深化与三星合作,为三星新品Galaxy S24系列手机相册打造全新的AI图象编辑体验,美图影像研究院(MT Lab)自主研发的生成式编辑——AI扩图与AI改图功用也已正式上线,助力手机图象编辑创作打开新空间。
通过AI改图功用,用户只需长按要编辑的图象,即可轻松移动、肃清或调整图象大小。此外,在画面水平线不垂直时,AI扩图功用可以在用户调整角度后,智能添补照片的缺失地区,修正画面构图。
鉴于MiracleVision(奇想智能)带来的AI功用,美图不仅助力用户在手机端轻松实现专业级的编辑动机,创造出更具个性的照片作品,也将持续推动和提升整个手机行业的AI图象处理能力。
依托美图影像研究院(MT Lab)强大的技术能力,MiracleVision(奇想智能)在不到半年时间已经迭代至4.0版本。未来,美图将持续致力于提升在电商、广告、游戏等行业的用户体验,助力不同场景的从业者工作流提效。