AI 起来以后,很多公司都在寻找 AI 的落地应用场景,都在思考项目工程的流程节点怎么用 AI 去做提效。随着人工智能技术的快速发展,图像生成需求在许多行业中迅速增长。目前,许多企业已经开始广泛使用 Stable Diffusion(SD)技术进行图像生成。例如创作 IP 的延展,或应用于广告、产品设计、游戏开发等多个领域。然而,面向企业的大规模图像生成需求,批量化是一种刚需。
企业在使用 SD 进行图像生成时,往往需要处理大量的图像素材。这一过程中包括编写 CSV 需求单、审核素材、打标和命名等步骤,传统的手工操作流程效率低下且容易出错。如果通过 AI 节点式接入和 GPT 技术,可以显著优化这些流程,提高效率和质量。
所以我们需要去搭建一整个 SOP,将批量生图做成工程化,这样才能提高效率。批量产图 SOP 的设计需要明确每一个流程节点,保证高效、标准化的操作。
一、传统的 SOP 流程
我们之前传统的产图 SOP,需要投入的人力大概在 5 个:
技术开发同学:负责编写工程文件,预留 SD 的 API 接口,保证系统能够灵活调用 SD 进行图像生成。
模型炼制设计师:负责炼制 Lora,确保产出的素材符合公司需求的统一风格,能够满足不同类型素材的需求,如 3D 风格、插画风格和真实场景等。
prompt 编写设计师:编写 CSV,确定图像生成的具体需求(即生图 prompt)。
素材审核员:在图像生成完成后,整理和审核输出的素材。制定素材入库的视觉标准,区分素材为三类:一类是达到视觉标准,无需二次调整的素材;一类是有略微瑕疵,二次调整后可达到入库标准的素材;一类是严重异形、画面杂乱等素材,无修改价值的素材。
素材管理员:针对素材的业务、类型、标签、命名做有效分类,确保素材在平台上的可查找性和可管理性。
整个 SOP 的运行中最核心的是 prompt 编写设计师的角色,他需要调控 prompt 和替换 lora,需要去调试工程文件中的节点。技术开发同学和模型炼制设计师其实都是前置资源,从产图到入库可使用的这个逻辑是这样的:
由 prompt 编写设计师编写 csv 条目,一个条目是一个图像生成的 prompt,所以批量生产同样的需要批量写 prompt,prompt 影响最终产图的质量。例如我们编写 10 个 prompt,那就可以产出 10 张素材。编写 100 个,那就可以产出 100 张素材。但人工编写的过程非常耗时耗力,这个节点是否可以借助 AI 的能力去提效?又该如何接入 AI?这个可以先思考一下,我们接着链路往下看。
当批量产出素材后,例如今天产出 2000 张素材,将素材转接给素材审核员,按照入库的视觉标准将素材进行分类和二次调整。2000 张图需要多久,不包含调整的过程,只去审核区分素材就需要 1-2 个小时。那 20000 张呢?这个节点是否有 AI 运作的空间?
当素材处理完,假设良品率为 40%,可直接入库的素材为 800 张,由素材管理员进行分类和素材信息标注。当然我们也可以只给素材命个名,如:3D 红包.png 那如果有 200 个不同的红包素材,素材如何有效召回,所以素材如何有效管理,之前传统的素材管理,是将命名作分级,如:业务 A/3D/红包/装满金币。那仅这个命名过程,假设一张素材命名需要 5s,那 800 张仅命名大约需要 1.11 小时。那这个时间是否可以借助 AI 给吃掉?
二、SOP 流程:AI 节点提效
ok,我们梳理一下整个产图到入库的流程链路,其中费时费力的节点:
prompt 批量编写
素材审核
素材分类及信息标注
这些节点如何借助 AI 做提效或者直接用 AI 的能力给吃掉。我是借助 GPT 的能力,让技术同学预留出 GPT 的 API 接口,我负责炼制 GPTs,将调试好的 prompt 发给前端,在工程文件中调用。在多个节点安插 GPT:
输入想要的素材关键词及数量–批量产出 prompt 条目(GPT 助力)–导入 csv 需求单–运行程序–调用 SD 做批量产图–素材质量筛选,将素材分类(GPT 助力)–素材信息标注(GPT 助力)
所以除了前置资源,前端提供的工程文件和模型炼制设计师提供的 lora,剩余的事情只需要一名设计师即可,不仅减少人力成本,而且效率还比之前高数倍甚至数十倍。
GPT 助力,都炼制了哪些 GPTs?我们逐一分析一下相关的 prompt 该如何写:
1. 批量 csv 条目助手
通过简单的关键词描述, 批量产出 csv,不过这里要注意一点,我们需要制定 prompt 规则:
prompt 指令规则:*图像名称(内容),*图像具体关键词,不希望图像里有什么
打开[新建文件夹」找到“csv”右键打开操作目录,选择“打开于-Finder”选中文件夹中的“csv”,右键打开方式选择-“文稿编辑”填入 csv 条目
① Prompt
② 输出效果
输出的所有 csv 条目,并非可以一次成功,产出素材的内容差异性和风格统一性还是需要人工把控,毕竟只有你才知道你真正想要什么,你想要一个有卡通翅膀的红包,这种装饰性词汇具备不可控且不可猜性,所以人工针对 csv 条目做二次调整。
2. 素材审核员
用 AI 代替人工做素材质量的判断和分类,做初级筛选,人工做素材质量的二次审核,确保最终素材均达到入库标准。
批量产出的素材分为三个档:S 级、A 级、B 级。
S 级:完全达到入库视觉标准;A 级:基本达到入库视觉标准,单一或部分元素轻微瑕疵;B 级:不符合入库视觉标准,画面杂乱、元素变形、穿模等严重瑕疵。
① Prompt
大家可以试一下,将 GPT 的 API 接入工程文件中,批量生产的素材输出在「新建文件夹」中,调用 API 读取图片,将每个图片文件传输后做质量审核和分类。API 返回的数据包含会 label 字段,用于分类。根据返回的分类标签,将图片移动到对应的分类文件夹中。
处理返回数据并自动分类移动图片的 Python 代码示例:
import os import openai import shutil # 设置OpenAI API密钥 openai.api_key = 'your_openai_api_key' # 批量图片文件夹路径 input_folder = 'Batch_Image' output_folder = 'Processed_Images' # 创建输出文件夹(如果不存在) if not os.path.exists(output_folder): os.makedirs(output_folder) # 函数:调用OpenAI API进行图片质量审核和分类 def analyze_image(file_path): with open(file_path, 'rb') as image_file: image_data = image_file.read() response = openai.Image.create( file=image_data, n=1, size="1024x1024", prompt="Classify and review the quality of this image." ) return response # 遍历Batch_Image文件夹中的所有图片文件 for filename in os.listdir(input_folder): if filename.endswith('.jpg') or filename.endswith('.png'): file_path = os.path.join(input_folder, filename) # 调用OpenAI API response = analyze_image(file_path) # 假设API返回的数据如下 result = response['data'][0] classification = result['label'] # 打印结果(可选) print(f"Image: {filename}, Classification: {classification}") # 根据分类结果将图片移动到不同的文件夹中 classification_folder = os.path.join(output_folder, classification) if not os.path.exists(classification_folder): os.makedirs(classification_folder) shutil.move(file_path, os.path.join(classification_folder, filename)) print("Processing completed.")
3. 素材信息标注员
素材的管理以业务、素材类型做分类;以标签、命名做标注。所以也需要一些前置信息的准备。业务和素材类型的全量信息,标签库的搭建和标签填充,命名的规则和限制。
其中标签,我以类别维度去搭建的标签格式:
一、主要类别(1)子分类 [具体标签]
大概整理了 17 个主要类别,基本囊括 80%的图片素材类别,后期也会定期维护更新。
标签体系搭建后,对素材进行了全面的命名规范:
业务(判断)-素材类型(判断)-标签一、标签二、标签三-人物描述/物体名称(判断,不超过 4 个字)-动作/场景/特征(判断,不超过 6 个字)。
素材的名称即为:人物描述/物体名称(判断,不超过 4 个字)-动作/场景/特征(判断,不超过 6 个字)。例:一张女足的素材。全命名为“业务-3D-青年、运动健身、运动员-女孩-踢球”。
① Prompt
② 输出效果
完成这一切的部署,就可以批量生图,素材审核,针对素材信息进行自动填充,素材批量上传入库。
关于 Prompt 如何编写,感兴趣的同学可以看之后的文章。此篇文章意在分享目前大厂内部针对 AI 是如何运作,如何借助 AI 的能力做节点式提效。
由于该 SOP 并不是一个产品化的流程,所以需要设计师掌握一定的代码能力:
部署 Python 集成开发环境(IDE):为 Python 开发提供了一个强大的工具集,如 Spyder、Jupyter Notebook、PyCharm 等 Python 开发工具都可以。
目前的批量生成素材的质量还是不错的,不过良品率还是有点低,在 15%左右,不过纯批量生产可以达到 1200 张/小时,可直接入库的素材至少有 144 张。若不调试 csv 持续输出,每天达到入库视觉标准的素材有 1152 张。当然这是理想的数据。目前有着隐性和显性两个方面的元素影响,例如一:网速、调用 SD 批量生图时长和读取图片的返回数据时长这些隐形因素。二:人工二次审核和 csv 条目的调试这些显性因素。
通过接入 GPT,减少了人工操作的时间,使得整体流程更加高效。prompt 批量生成、素材筛选、标签生成和命名等环节均实现了自动化,大幅提升了工作效率。利用 GPT 的智能筛选与标记功能,可以确保素材质量的一致性和可靠性,减少了人工操作可能导致的错误。自动化的生成与筛选流程大大减轻了人工操作的负担,使得成本降低的同时效率提升。