前言
此篇不是 Stable Diffusion 的软件教程,而是面向 AIGC 画图工作流的一些开阔性思路与方法分享,核心观点即“贸易需要是题面,AIGC 是计算对象,解题思路还得是安排师!”,总之面对 AIGC 安排不要焦虑也不用回避,本篇笔者期望能够和大家一起探讨 AIGC 画图如何为我所用,如何融入安排流程,如何降本增效。
并且会聊聊 Stable Diffusion 究竟具备了哪些可控能力,以及举行贸易安排落地的思路与解题技巧,一切皆是希望能够帮助大家更好的认识 AIGC 画图对象,并帮助优化自己的安排流程。
更多SD教程:
一、互联网企业对 AIGC 的痴迷
当下 AIGC 很火,以 Chatgpt 为代表的语言大模型,还有专注画图领域的 Midjourney 与 Stable Diffusion 都很出名,甚至有企业宣称运用 AI 模型做 CEO 管理,虽然不知道员工服不服管,股东有没有意见,但可见 2023 很 AI。
1. 企业们又在期待 AIGC 能做些什么?
①企业内部办公
期望借助 AIGC 降本增效,通过智能自动化的形式满足一些内容产出以减少人力的投入,从而将人力转移到其他更有价值或复杂的工作内容上,以实现降本增效的可能。
②产品体验赋能
通过 AIGC 的场景化能力,赋予产品更智能更前沿的技术体验,从而产生更多的服务能力或是服务质量,并减少产品运营的成本。
③技术创新性
随着深度学习、模型训练等,为企业提供更多定制化的技术运用或创新突破,为企业带来更多产品创新运用的可能,或是其他的正向收益。
2. Midjorney&Stable Diffusion
说到安排师,Midjourney 跟 Stable Diffusion 总是要被提及,而作为一个交互安排师,我能用上的图形绘制部分就不多,所以有必要先了解一下 AIGC 画图对象能做些什么了、能做到什么程度、能为你的工作做些什么,这很重要。从贸易角度出发,笔者认为 AIGC 画图更多的是运用到广告营销或艺术创作方面会多一些,就我当下尝试和了解到的运用场景与优势如下,可供产考;
①Midjorney&Stable Diffusion 特征差异
Midjourney 是贸易化产品、上手难度小、出图快、动机质量高,服务是端对端的形式,能够基于一个大模型快速响应各种格调或内容关键词的绘制,很适合在头脑风暴、寻觅格调参照的阶段花钱消灾,并且 Midjourney 的模型还在不断覆盖或更新事物关键词的懂得,如果你怕麻烦并且安排需要不复杂,那么推荐 Midjourney。
而 SD(本篇中对 Stable Diffusion 的简称)典型的特征就是开源免费,社区共创扩张创新,本地化运算,有阶段化的可操控性,可以更好帮助安排师实现脑子里的创意,但有一定上手难度和设备局限,适合在复杂安排工作中更深入的探索运用。
用个不恰当的比喻,Midjourney 跟 SD 就像是美图秀秀跟 Photoshop 的关系~
3. AIGC 画图的短板还很明显
给人很直观的感觉就是 AIGC 不懂安排,也不懂产品,还不好驯服,事实上目前 AIGC 画图的贸易能力还很有限,并且人机交互的沟通成本并不小(你要通过适当的关键词描述需要),当你不能熟悉关键词的运用以及 AIGC 绘制的功能操作方式时,开启 AIGC 画图对象后就像是刚刚新建画板 Photoshop,强大且不知所措,AIGC 画图对象的智能化、工业化、多模态交互、傻瓜式都还面临不少挑战。
二、为何考虑用 SD 做安排解题?
我简单概括为三个方面:成本更低、可控性更高、有更多的可能性
①成本更低
成本一直是企业或个人关心的问题,在 AIGC 画图生成的过程中充满了太多的不确定性了,市面上大多 AIGC 画图对象都是收费或签到制的,在不断抽卡中余额消耗的极快,而开源免费的 Stable Diffusion 无疑是雪中送碳。
通常安排师的电脑也都不算差劲,尽管现在 SD 还有一些硬件或系统兼容的问题,但是我认为不久的将来,强大的开源社区会给出更好的方案。
②可控性更高
安排师不同于纯粹的艺术家,安排即代表有精细的布局与控制,而图像内容的可控性就在工作中显得极为重要,这些具备贸易化或产品属性的诉求若不能在 AIGC 画图中解决,那 AIGC 画图就还不具备为安排师解题的能力。
初阶段的 SD 给人的印象也还是基于模型画画纸片人,并支持一些涂涂换换的能力,直到相关开源社区出现了更多的模型、Lora 以及颠覆性的 ControlNet 控制网络时,我看到的了 SD 更高的可控性与可能性,这是 AIGC 画图跨入工业化的一大步!
③更多的可能性
开源社区的魅力就是为爱发电多,贸易化场景的运用模型越来越完善,未来充满了各种可能,你根本不知道何时就会出现一款现象级插件或模型,并且市面上可能会出现更多基于 Diffusion 二开的贸易场景运用,我相信在未来 SD 步入工业化的脚步会越来越快,安排师运用的场景也会更广阔,即使你现在不使用 SD,但依旧值得期待一下!
1. Stable Diffusion 的可控概念
首先你不要想着像专业画图对象一样控制了,你可能有时候连自己都控制不住自己!
SD 画图可控性的本质是定向抽卡,方向越聚焦,结果越接近。
这个过程中,提醒词是画面构成的重要因素,却不是画面格调和语义解析的全部,SD 生成的可控性还需要借助各种扩张网络的运用,这意味完全一样的关键词出来的结果依旧可能天差地别,SD 与扩张模型的运作模式可通过下图快速懂得,它们逐级影响,相互作用:
2. 里程碑 ControlNet 1.1+的概念
关于此扩张插件相信大家已经有所了解,这里不做教程了,目前 ControlNet 还在持续更新。该插件提供了多种方式供用户实现内容生成的可控性,是一个阶段性的扩张运用,还有更多新的 ControlNet 以及高版本正在生产中,期待一下吧;
三、运用 SD 的正确解题思路
1. 先了解 SD 画图对象
当对象回归对象,安排的核心依旧是安排思维,目前想要借助 AIGC 画图来为工作降本增效,就需要先了解对象能做什么,有何优势,有何局限性,能帮你做什么?能做到什么程度?
期间笔者看了很多 AIGC 画图运用的分享,也参加了些相关沙龙,基本上主流的安排运用就三个方面;
另外 SD 不同于 Midjourney,由于是从主模型到扩张一层层混合作业的,想要基于同样的提醒词实现抄作业不一定行的通,所以了解 SD 各种模型的关系与功能属性是很有必要的,以下是关于 SD 基本且主流功能的概述整理:
2. 沉淀美学与安排素养
举行 AIGC 贸易化运用,沉淀美学与安排素养是根基,并且针对 AIGC 生成,可以准备成一份随时可参照的资料。
①对于各类美术格调,需要知道其特征和专用术语名词,以保证在需要的时候能够运用对应的提醒词,并且这些提醒词不局限于美术格调,也有根据某品牌或是某个行业提炼的艺术关键词;
部分举例
3D、2.5D、2D、CG、吉卜力格调(Ghibli style)、水彩(Watercolor)、波普艺术(Pop Art)、中国风(Chinese Fashion)、朋克风(Cyberpunk)、噪点插画(Noise Design)、像素风(16-bit pixel art)、迪士尼风(Disney Style)、Q 版风(Q-Style)等
②对镜头语言的认识,控制基本镜头视角的描述词,以及高阶镜头的动机差异与提醒词运用,不过目前体验下来,AIGC 对象基本还不能呈现较为复杂的镜头与视角;
部分举例
透视(perspective)、景深(depth of field)、俯视(bird’s-eye view)、鱼眼(fish-eye view)、顶视(top view)、广角(wide-angle)、鸟瞰(aerial view)、等距(Equidistant perspective)等
③控制基本的构图知识以及布光基础,并了解动机差异与提醒词运用;
部分举例
前景(close shot)、中景(mid-shot)、远景(prospect)、主光(Main light)、辅助光(fill light)、顶光(overhead light)、眩光(dazzle)、柔和光(soft lighting)、阴影(shadow)等
④在偏 3D 的场景中,对于物体材质特征的基本认识与提醒词运用也很重要,目前在一些原生的 3D 渲染器中,收集了不少关键词,建议大家也可以如法炮制;
部分举例
塑料(plastic)、金属(metal)、玻璃(glass)、皮肤(skin)、薄膜(thin)、布料(cloth)、亚麻布(linen)、水晶(crystal)、木质(wood)、石头(stone)、瓷器(ceramic)、丝绸(Silk)、皮革(leather)等
⑤基础环境描述与提醒词运用,实际上复杂环境通过提醒词是很难搞定的,主要是还从简到繁的将空间环境一点点根据期望去刻画,基本上就是区分室内还是室外、空旷还是狭小、乡野还是城市等等;
部分举例
房间(room)、森林(forest)、废墟(ruins)、天空(sky)、宇宙(universe)、雨天(raining)、雪天(snowing)、城市(city)、广场(square)、草原(grassland)、操场(playground)、海洋(ocean)、海底(seabed)等
⑥优化提醒词与负面提醒词的运用,目的是让生成图片的质量更高以及减少不对的负面动机,但想想还是有点傻,期待更智能的那一天早日到来!
优化词
高清(hd)、高分辨率(4K,8K)、最佳质量(best quality)、杰作(masterpiece)、抗锯齿(antialiasing)、虚幻引擎(unreal engine)、原画级别(CG)、完整(complete)等
负面词
画面常用:低质量(worst quality)、模糊(blurry)、水印(watermark)、丑陋(duplicate)、重复(duplicate)、损坏的(Damaged)、出错(error)、单色的(monochrome)、黑暗(darkness)、非常规(nsfw)等;
人物常用:肢体多余(extra limbs)、畸形(deformation)、病态(morbid)、多手指(too many fingers)、多条腿(mang legs)、斗鸡眼(cross-eyed)、变异手(mutated hands)、截肢(amputation)等;
控制和了解以上美术素养或提醒词是为了更好的面向 AIGC 对象举行需要描述和控制。
此外安排素养是作为贸易安排、工业化的重要内核,其中包含了基本的行业安排规范、标准的懂得与控制,此外相关安排思维、审美与问题解决能力都要不断的学习和提升,这是举行贸易安排和不被 AIGC 取代的重要资本;
四、建立预期后再开工
一方面因为 SD 通过简单的几个提醒词并不能生成高质量动机,依靠随机抽卡是不可能实现贸易需要的,另外作为贸易安排,其中必然是带有贸易目的与业务信息的,因此为了保障生成动机与效率,安排师还是要先根据需要建立安排预期,在脑子里形成安排方案后开始构建草图或参照资料,然后再拆解成多个阶段,把适合 AIGC 画图处理的事项交出去,中间通过垫图或人工操作纠正方向,加速抽卡的方向聚焦,最终得到一些满意的资料,再做贸易合成产出交付产物;
1. 多元的草图与原型图
准备初稿或是原型是安排工作中的必要过程,可以帮助安排师对需要和目标的懂得,也能形成资料与同事之间探讨构思,甚至向上对齐安排方案。此外准备初稿或原型资料也能帮 SD 在抽卡时更聚焦,减少无效的试错。
①初稿或原型支持多样性
SD 功能允许的条件下,经过反复尝试,前期的初稿资料可准备如下;部分需要采用 ControlNet 扩张举行解析运用,方法就是制作与 ControlNet 模型匹配的资料,导入到预览作为输出后再启用对应模型即可,方法如下图所示,亲测有效;
以下是可准备的初稿或原型资料的参照说明;
②参照资料或生成的局限性
在以上表格的注意事项已经提到了部分扩张运用的局限性,此外在实际工作场景中,还有一些比较头大的局限性,主要包括了以下三点;
另外当引导词不能被模型正确懂得或不具备较高的常规性时,你也可以将关键词替换成其他近似词语,或者改成其他描述词来代替,能够提升一定的常规性和模型懂得的概率;
例如:帽子(hat)无法得到预期的结果,便只好改为了头部穿戴(Head wear)+其他构成元素词语,输出时,帽子终于出现了。
③初稿复杂性拆解技巧
将初稿的复杂性举行拆解是为了简化安排,使 SD 中的模型能够更好懂得需要举行生成,经过尝试或实验,整理了以下两种比较有效的拆解方法,但前提是保证一定的常规性以及主模型的可懂得性,当然你也可以在整个过程中来回切换主模型运用,只要大的视觉格调差的不太多,例如都是 2D 或是写实的,后续再对格调矫正即可;
但由于现在的 AIGC 画图对文本信息处理能力不佳,若你的主体视觉由信息构成并且嵌套在视觉场景之中,而不是处于前景、近景的层次那么就会比较难搞,也因此目前市面上主流的 AIGC 营销视觉案例基本都是“情景图+配文”的结构,两类运用场景如下;
2. 局部调整或后期优化阶段
借助 SD 的图生图模式以及 ControlNet,可以灵活的实现局部的优化调整,这是 Midjourney 完全不支持的能力(文章发布前Midjourney 更新后已支持:https://www.uisdc.com/midjourney-39),功能的用途简述在上个话题“先了解 SD 画图对象”中有介绍,简单讲就是我们可以的对画面的局部举行涂改重新生成,可以是对局部错误的生成举行改正,也可以是将新的点子生成到当前的画面中,相比于 PS 的创意填充,在 SD 中你可以对局部轮廓、色彩等更多方向举行生成控制,总之不再是 0-1 的抽卡阶段,而是 1-2 的聚焦抽卡阶段了;
后期优化部分主要是指对整体的格调举行切换或是混合,此前网上流行的 IP 线稿转有色稿再转 3D 化就是典型的格调转化,主要是借助主模型或配合 Lora 等模型的格调特征,转移到当前的原生图上,只要控制住“重绘幅度”基本就能保证相似度,借助 ControlNet 的 Tile 也能快速帮你运用参照图的视觉格调,并且当你使用局部调整约束好区域配合模型的切换,你还能够实现一个格调混合的画面,只要使用得当,也能生成动机不错的画面;
3. 对象混用 当 C4D、Blender、Photoshop 碰上 SD
以 ControlNet 中的深度、法线来讲,其实都不是什么新鲜技术,在 3D 安排对象中都很常见,这也意味着在运用 SD 的过程中,我们可以根据预期在其他软件中完成起手资料来辅助 SD 生成,这里我放了一个在 B 站上看见的运用案例,其中就是借助 3D 软件完成了基础的城市地编,然后根据 ControlNet 的语义分割协议对地编建筑举行了色彩渲染,之后就是导入到 SD 举行生成以填充相应的细节;
不止 3D 软件,我们喜闻乐见的 PS 其实也支持 SD 的扩张运用了,这意味着你可以直接在 PS 中举行更精准的涂绘、制作蒙版、绘制初稿等,加上 Beta 版 PS 自带的创意生成,或许我们可以让 AIGC 画图之间碰撞出更多的可能性!
4. 格调模型沉淀复用
关于模型沉淀,自己的话,反正有条件有兴趣随便弄,如果是面向企业办公的话,则要考虑两个属性,一是定制化,二是复用性,即市面上的模型不能满足,且模型训练完有反复运用的价值。主模型可以很好的涵盖行业特征进去,但是炼丹的难度跟成本会比较高,如果说有适合的主模型能够满足事物提醒词的懂得生成,但是动机不佳,这个时候比较建议训练 Lora 模型来微调结果,原因如下:
这里不讲具体训练方法了,网上资源很丰富,这里引用一个概念模型帮助大家懂得和消化一下 Lora 模型;其中训练 Lora 的主要任务即“打标”,这个过程有点儿像是帮助 AI 看图识物!通过对一批规格统一的素材举行关键信息标记,以帮助主模型更深入的懂得某个事物或格调,最终并在主模型生成时启用 Lora 以达成微调的目的;
训练方法可以在一些博客或 B 站上获取,此处不赘述。
五、如何快速控制 SD 的运用
在反复的尝试和学习过程中,想要尽快熟悉软件操作,那么自己一顿尝试后在结合一些教程是比较快的,当你想要更深入的控制 SD 并生成更惊艳的动机,我感觉还得是多“抄作业”,方法也很简单,就是对着相关平台用户分享的作品参数对着来,从主模型选取到扩张模型权重,再到正反向提醒词等,全部复刻一边;
当你这样做的时候,你会发现有很多好处;
首先会减少 SD 图片创作的门槛,通过更快的生成高质量图像来建立更多的自信,并感受到 SD 美妙之处;
在比照调整配置的过程中,可以快速感知到采样、模型、步幅、提醒词之间奇妙的化学反应;
在抄作业的过程中,其实也是 SD 上手熟练度提升的过程,这比看几篇文章、添加到收藏夹里有用多了;
在搬运他人的提醒词时,自己也能控制更多的提醒词运用,以及配套模型的触发词技巧,当然了,光抄作业还不够,最好再加上做笔记,把别人的提醒词与配套模型整理下,以后就可以更方便的调用了;
展望一下
在前面的部分,探讨了 AIGC 画图对象运用到工作流中的思路,以及技巧与 AIGC 安排的思维培养,同时也暴露了不少 AIGC 画图功能的不足,那么也展望一下吧。
最近有看到在 Midjourney 安排落地教程里的这么一段话“视觉安排师赶紧转行吧,花几个月学的三维软件,结果几个通关密语就给实现了”,那么真的是这样吗?
事实上 Midjourney 也只是控制了一类三维视觉技法而已,当举行贸易安排时,依旧是安排思维先行技法辅助,再则,更深入的三维技术甚至三维动画,AIGC 还有待提高,期望以后可以有更惊艳的表现;
目前行业相关模型正在快速丰富,行业化即代表具备一定的工业属性、贸易属性,虽然还不成熟但值得期待,另外 Stable Diffusion 玩家的存储空间应该越来越告急了吧,期待兼容更好的大模型或云服务;
情感化联想一直是 AI 发展的重点功课,AIGC 画图对情绪或感情的懂得与表达更是有限,会不会有一天 AIGC 安排能够懂得需要并洞察出准确的情绪与氛围表达呢?
多模态输入输出同样值得期待一下,仅是提醒词输入与静态图片输出怎么能满足安排行业的欲望呢?比如说我先选个行业模型,然后对话式生成需要懂得,并给出安排方案建议和参照资料,再进一步探讨方案细节与引入参照,举行一次初步的安排生成,最后就是探讨优化再到生成结果之间反复循环,直到把 AIGC 乙方虐爆为止 hhhhh。