最近大火的 AI 图画,并不是一个全新的事物,早在 2015 年就已经出现了基于 GAN (生成对抗网络) 生成图象的 AI 应用实例,但因为技术的不成熟,并没有得到广泛的推广。
这两年因为显卡算力的增长和扩散模型的出现,AI 图画迎来了一波热潮,大有要把计划师干失业的凶猛势头,无论是网上的社区还是微信社群,都弥漫着一股恐慌的气氛。
对于 UI 计划师来说,这种恐慌是无谓的、盲目的、幼稚的,但我光这么说是没用的,因为恐惧来源未知。就像之前一篇分享的评论中,得多夸大 AI 作用的计划师 “既不懂项目,也不懂 AI 是什么”……
所以,项目的分享前面已经做了得多,这篇分享主要用白话就和大家做一次基础的扫盲:
AI 图画到底是什么
现在有哪些 AI 图画对象
它们的生成方式和过程
相关的限制和阻力
可以应用的详细场景
一、什么是AI图画
AI 图画是一种利用人工智能技术(其实就是机器学习算法)创作视觉作品的方法。
AI 图画的应用,是部分科学家和工程师,先搭建了可以学习图象来自我完善和强化的技术,接着提供给它成百上千万的图象,让它通这些养分快速成长,理解分歧的详细事物、光影、风格是什么。然后,当我们输入相关的文本信息指令时,它就会通过这些文本内容去匹配自己已经理解和记录的图形要素,并将它们绘制出来。
说是 AI,但它的本质依然是一种算法,一种对规律的记忆和复现,是一种数学化的总结和组合,并不是抽象的艺术思考和创作,距离多数人想象中真正的人工智能其实还差了很远。
现在市面上涌现出了一大批 AI 图画对象,这里我介绍其中最有代表性的几个:Stable diffusion、Midjourney、Adobe Firefly。
1. Stable Diffusion
Stable Diffusion (简称 SD) 是一个可以本地部署的 AI 程序,因为其开源的属性,让大多数不想花钱且动手能力强的用户可以快速搭建并生成任意数量的结果。也能依据自己的需求和画风举行针对性的大模型训练,还可以扩展相关的插件和模型,包括对 VAE、Lora、Control net 等,包含了极多的设置选项和上限。
2. Midjourney
Midjourney (简称 MJ) 是市面上商业化最成功的在线 AI 图画服务商,是一款运行在 Discord 上的程序(类似小程序),只需求举行几步简单的注册和操作就能登录运用。是现在影响力最大,运用人数最多的 AI 图画对象。
2022 年有人拿着 MJ 生成的画参加科罗拉多州立博物馆举办的「Fine Art Exhibition」美术展,并获得了一等奖,就是下面这张:
虽然不知道这个奖项有多大的炒作成份,但是实打实的让 MJ 迎来了热度的大爆发,用户量在一个月之间增长了 4 倍。也由此可见 MJ 在对艺术图画风格的生成上有着不俗的能力。当然 MJ 也有偏向二次元的 Niji 模型偏向真实摄影的 testp、V5 模型。
3. Adobe Firefly
Adobe Firefly 是 Adobe 自己开发的 AI 对象,是这几个 AI 生成对象中最年轻的,前不久刚刚推出 beta 测试。作为一家以软件对象作为核心业务的企业,Firefly 自带很深的生产力属性,除了在生成过程中提供表单式的选项外,还支持对生成内容举行图层分层,并导入到自家软件。
虽然 Firefly 现在才刚刚起步,但以 AI 图画这种需求大量资源投喂的方向来说,Adobe 有得天独厚的优势,未来间接接入 PS、AI、AE 等对象是必然的,也是可以最贴合平面类计划工作的对象。
除了它们三个以外,还有别的得多绘图对象,不管是正在快速迭代的,还是开发中的,如 Dalle、NovelAI、NightCafe Creator、Tiamat、Imagen、Parti 等。
作为 AI 图画的起步阶段,现在我们不能完全断言哪个对象最后会成为效果最好,最适合我们的。但可以肯定的是,整个行业都在快速成长,现状不能代表未来的格局。详细会发展到什么地步,就要拭目以待了。
二、AI图画的基本逻辑
就像把大象装进冰箱只需求三步,所有 AI 图画基本上都分为这几个步骤:
1. 模型的预训练
步骤中这个潜在空间的映射过程,就是模型预训练的结果,也就是说你训练模型时是如何做文本到图片的对应的,那么生成时候就会大概率做同样的对应。
并且这种对应,是在模型训练完成就难以再修改的。因为模型训练的数据量和计算力需求极为庞大,所以除非大公司有庞大的资源举行模型训练,否则如果是运用现有的 AI 大模型,个人想要举行微调几乎是难以实现的。
举个例子来说,现有的 MJ 因为缺少字母数字字形的训练,所以生成的所有图形几乎都与详细的字形无关,哪怕你给它指定了图片中需求数字「0」,它也做不到,因为它脑瓜里没有这样的东西。
就像我让你画一个王鹫,你连这动物见都没见过,怎么可能画得出来。模型的作用就像你对世界的认识,没有输入和学习,就没有认识。
2. 图片生成器
市面上有好几个分歧的方案来实现图片的最终生成,例如 MJ、Firefly 主要采用的 GAN(生成对抗网络),以及 SD 运用的扩散算法,还有 VAE (变分自动解码器)等等。
不过不管它们详细运用的方法是什么,其过程大致抽象如下:生成器首先生成一个低分辨率的图片,每一层神经网络会在此基础上添加分歧层级的特征和细节,就好像 AI 慢慢地把一副模糊的,低细节的画,画得更清晰、细节更丰富。
在这个过程中,我们不能够举行人为干预,你想要更改其中的某些细节,就需求重新修改 Prompt (描绘词),让 AI 重新生成,并且还无法保证你的此次修改能否起效。因为我们无法理解 AI 是如何拆解你的 Prompt 并对应到图片上去的,对运用者来说,这就是一个「黑箱」。
3. 详细的图象生成
每个 AI 图画对象都会有一个关键字输入框,通过对应语法输入相关的指令和描绘,来生成图象。而每个对象对文本的理解和模型分歧,即运用一样的描绘生成的东西也不一样。根据前面预训练的说明,分歧模型擅长的和画不了的东西也不一样。
所以,下面我们就用一组基本一样的关键词,在分歧的对象中生成对应的结果:
这里要强调,想要获得越理想的结果,描绘就要越准确,而且画面结果越复杂,需求描绘的字数也就越多。需求氛围感越强,情绪的描写也就需求越生动。想象下那些描写生动的文学作品,能让我们脑子里有画面,语言的描绘方式就越细致、越特别。
比如搭配 GPT-4 生成的 MJ 描绘文本:
当 AI 帮助我们完成一幅画的时候,有得多元素它可以举行自定的补全,比如画个人,你可以不指定他有牙齿,但只要你打入 open smile 的话 AI 自然会根据正常情况去画出牙齿。
但我们进入到非常规的情况,比如 UI 计划,每一个 UI 界面都有它自己的独特性 —— 字段分歧。也就是出现在这个画布中的所有内容信息不一致,这个是绝对不可能依托脑补实现的。
那么,即使有团队开发了非常强大的文生图 AI 绘图对象,也一样需求把画面中出现的字段全部输入一遍,即使再简单的字段,你也需求描绘它在画面中出现的特征、权重、交互和属性。
你们可以想象下如果用文本方式去指定下面这些页面应该怎么完成:
三、AI图画的局限性
AI 图画再强大,能生成再多让你惊叹的画面,它也有自身的局限性。就像前面说的,它不是真正的 AI,仅仅只是 “一种对规律的记忆和复现,是一种数学化的总结和组合”。
1. 依赖模型
之前说过,AI 生成的图象是什么风格,极大程度依赖于它是如何接受训练的,市面上有得多专门针对特定风格的模型,都是这一特性之下出现的产物。
但这也并不能保证市面上有的模型就能百分之一百满足你的工作需求,有些工作方向符合条件的团队,可以自己训练模型,想要模型的效果好,就需求投入得多的人力去举行手工的筛选和打标,且最终的模型效果很难保证。
而 UI 这个规模现在没有这样模型,AI 也并没有建立对 UI 中分歧元素的认识和理解,也就是让它生成 UI 界面是随机抄下这些元素举行组合来但根本不清楚自己在做什么。
2. 随机生成
生成器在生成低细节图片时,基本上就确定了构图,但这种确定是随机的确定,也就是说你通常很难指定图片中的某样东西,在图片中的哪个详细的位置。这种随机性会消耗计划师大量的精力来举行 rerolling,直到 AI 恰好随到了一个比较符合你预期的构图。
但这样一来,就太依赖 AI 的即兴发挥了,而在 UI 计划中,一个界面从上到下应该包含哪些模块,每个模块里包含哪些字段是指定的非常详细的,和它的随机性是完全背离的。
3. 指向性差
之前所举的 MJ 无法生成详细的数字/字母,就是一个指向性差的例子。
MJ 虽然非常擅长画人物,画山水,画建筑,但它非常不擅长画抽象的人造物。除了字形之外,它还不能在已有的 IP 形象基础上举行姿势、风格、3D 化变体;对图标、logo 的描绘也比较差 (几乎不可用);对元素举行秩序排列也比较难做好。它太喜欢细节了,这些对人类来说更简单的东西反而画不明白。
尤其是在 UI 的规模中,我们往往对元素的制定有精确到像素的需求,已这种方式去要求 AI 显然是本末倒置的,只能增加更多的工作量。
4. 难以微调
AI 图画的每一副图片都要重新生成一次,比如在 MJ 中,你随机无数次生成出接近自己想要的东西,但是要你要微调里面的内容时,却会发现做不到,每次调整就是生成一张新的图。
而在 SD 中,虽然可以运用图片局部编辑,但是那个编辑仅仅是根据周边环境对这个区域重新生成,能不能获得你要的结果还是得碰运气。这在 UI 界面输出的流程中是不可接受的,因为我们会在确定的计划稿中替换元素位置,或者用指定元素替代现有元素。
手动操作特别容易,但是 AI 的生成模式和我们日常的手动计划过程是完完全全分歧的,所以它没办法支持,最后还是得靠我们自己去动手完成。
四、AI图画的运用场景
AI 插画确实可以在一些计划的规模起到革命性的作用,但现在多数是加快这些工作的效率和质量,而不是间接替代,下面罗列一些详细的应用场景。
1. 插画
首先肯定是插画的规模,这个是现在 AI 做的最好也最成熟的方向。不管是游玩 CG 还是概念插画、运营插画,它都可以很好的完成。
当然,基于前面说到的那些缺点,商用环境下是不会间接运用生成的结果上线的,而是要在这个基础上运用 PS 举行修改,或间接以此作为灵感重绘。
所以,要求稍高的商业插画即使引入 AI 依旧需求专业的插画师来操作,只是对他们的要求多了一项运用 AI 的技能。而最底层的插画工人确实失业风险已经近在眼前。
2. 游玩 UI
游玩 UI 也是插画的一部分,只是绘制的范围更小。过去游玩 UI 绘制界面中的图标是非常痛苦吃力的,一个简单的宝箱可能就要画得多版本,绞尽脑汁。而 AI 图画就可以快速生成大量的版本,这些图间接拿来修改或临摹一遍,大大缩短了出图时间。
这也是 AI 插画现在影响最大的地方,因为游玩项目组是非常严格控制成本的,而 AI 带来的效率提升,让个人生成力飞跃,那么自然不再需求那么多的游玩 UI。只要团队跑通对应的流程,就可以立马开始裁员,精简团队的名额,这在各个头部大厂已经实际发生了。
3. 平面包装
平面包装方向也是一个重点依赖抽象图形的规模,对精确度的要求并不高,所以往往有一个模糊的方向和概念,计划师是乐于接受随机生成结果和样式的。
根据现在的实际产出案例质量,包装计划除了外部轮廓,可以大量依赖 AI 来生成需求喷刷的视觉图案。但要记住图案仅仅是包装计划的一小部分,它的结果依旧需求专业的计划师来审视、筛选和修改(需求铺开和添加指定文字),所以会成为一个非常好的对象而不是间接取代包装计划师。
4. 服装计划/摄影
在服装规模,计划和摄影都分歧程度受到 AI 影响。服装计划得多时候仰赖一些抽象的灵感和思路,而 AI 的随机性可以很好的提供给计划师灵感,但不管生成的图质量有多高,都需求专业的计划师根据成本、流行、材料、季节的关系对它举行调整,重新绘制和打版。
而在成衣环节,得多时候要拍摄模特图片是要花费很大成本和时间的,而将计划好的服装在模特身上“试穿”已经成为可以实现的功能。虽然现在还有得多缺陷,但可以遇见的是未来肯定会有专用的产品上线,对低端商拍和模特行业产生间接的影响。
5. 建筑/室内
还有就是因为 Controlnet 的应用,AI 插画可以生成更细腻、丰富的室内建筑、室内效果图了,往往产出的质量还不错,远超低端计划师的工作效果。
但是,光靠这种效果图能完成最终建筑或室内计划吗?想想也知道不可能,因为实际场景包含的各种限制、参数、需求是没办法有效反馈给 AI 让它解决的。所以这些效果图依旧只是飞机稿,为计划师提供灵感的对象。
但可以相见的是,如果 AI 生成效果图那么好,未来如果能结合 3D 模型(如 Sketchup)间接生成,而略过运用 3D 软件渲染的步骤,那么一方面出图的时间大大缩短,另一方面计划师和客户的沟通将变得无比高效。
之所以最后提那么多应用的场景,就是为了让大家明白一件事,AI 现在的能做的事情,仅仅是 —— 生成位图。
除了需求比较基础和低级的低端插画市场,商业项目间接运用 AI 生成结果上线,只会引发灾难性的后果。即使 Adobe 走的更快一点,提供了图层的区分,但也仅仅是分歧层的位图而已,还是要计划师打开 PS/AI 做调整。
因为视觉图象仅仅是分歧计划规模中的一个部分而已,是需求结合进工作流和考虑各种外部影响的,这些判断是需求专业计划师来完成的。
随着 AI 的发展,分歧的计划规模都会引入 AI 绘图结合进计划流程,但说到底它只是一个对象,不可能包办整个项目都出发到落地的所有细节,因为这些关键的信息是在三次元中产生的,而项目又不是工业生产线,可以完全标准化运作。
搞清楚这些内容的想法,你就不会轻易被恐慌情绪牵着鼻子走,做一个无知且惶恐的局外人了。
结尾
如果后面有时间,我们也会在这个基础上进一步更新成系列新的教学,指导大家如何安装和运用 SD、MJ、Firefly,并输出对应的内容。
想要看到这些的话,就记得多分享、点赞、留言~
我们下篇再贱…