关于 AI 图画,过来已经谈过一次。
相关观点至今没变,属于生产工具升级,生产关系暂时不变。这里头有外行看热闹,内行看门道,新手两边看的情况。当然,还有无数好事者的呐喊助威,各怀心思。Ai 图画目前更像一个人工智能玩具、素材制作、灵感参考、图画新工具的存在。我们要敬畏它,进修它,运用它,但不要过分焦虑。
这里头有两个重要问题有待解决,其一是版权。如果 AI 生成图象跟成名艺术家过于相像,容易形成抄袭一类维权纠纷。这里头容易埋坑,就是一但立法跟上,可能会对过来应用进行责任追讨,律师事务所自然喜闻乐见,摩拳擦掌。其二是如果不用以图生图方式,实在主流的两大 AI 工具 MidJourney 与 Stable Diffusion 都有较明显的风格化问题,容易一眼看穿出身,形成我们设计圈常说的素材感很强,模板感很强的感受。比如我看目前朋友圈的大量分享确实一眼就知道 AI 出品,有时候两眼。
看多了,新鲜感就会消退,而且就实际商业应用而言,受不受欢迎不好说。免费做应该还行,甲方如果付费了应该并不希望你用 AI 弄一套东西给他。
但 AI 进步实在太快,以上说法也许很快不能作数,因此文章有效期 7 天。今天的话题并非要进一步评价 AI 图画,而是跟人人讲述它的发展史。从历史角度,还原一下妖怪的出身。
AI图画教程:
故事,要从 70 年代说起。
一、伪人工智能
这段历史,几乎每个人都会从一位英国艺术家说起,此人名为科恩(Harold Cohen)。
生于 1928 年的科恩在 2016 年去世,一生致力于研究如何采用计算机法式创作艺术。
科恩早年就学艺术,随后再学编程,文理兼修,打通任督二脉,也就是艺术与科技的屏障。
因此,1972 年在他手上出身了“亚伦”(AARON)法式。
这个法式被视为 AI 图画始祖,个人认为相对牵强。
当然我所谓的牵强要看怎么定义“AI 图画”,就目前 AI 图画的形态来看,“亚伦”更像打印机。
因为“亚伦”创作的真的是画,画在纸上那种(或者画布)。由于“亚伦”至今不开源,而且科恩已经去世,其作画原理细节目前是个迷。
但按理解,就是通过编写好的法式指导机械化操作,跟如今工厂的机械臂差不多。
Mac 电脑首次集成可以处理图象及笔墨的软件,图画由此真正进入可视化的电脑时代。世界上第一款图文设计软件也由苹果公司开发,随着 Mac 电脑一起发布,名为“MacPAInt”,(“麦克油漆”)。当年的产品发布会上乔布斯还为人人现场展示过这款软件绘制的浮世绘图象,创作者是美国女平面设计师苏珊·卡雷(Susan Kare)
这实在也可属于 AI 图画历史的一部分,就是生产工具的升级。当时而言,对图画界的震慑威力也不小,人人也很恐慌,很焦虑。传统画家都说糟糕了,老子要失业。再然后,冷静进修,冷静适应,冷静发展,冷静变成自然。
历史就是这么有趣。
二、闷声干大事
Mac 之后,科技分别在计算机+互联网领域奔跑。那时候,我们对科技进步感知实在还不够明显。
但从乔布斯 2007 年推出 iPhone 手机后人人就明显感觉科技发展“提速”了,此后惊喜不断,高潮迭起,一环扣一环,人人应接不暇。其中,就有不少人在冷静耕耘人工智能。
于是乎,重要的拐点发生在 2012 年。
这一年谷歌两位 AI 大神带领团队做了个试验,耗资 100 万美元,1000 台电脑,16000 个 CPU,用时 3 天,基于 Youtube 平台 1000 万个猫脸图片,用深度进修模型法式生成了一个模糊的猫脸。两位大神分别是华裔人工智能科学家吴恩达跟美国计算机科学家杰夫·迪恩(Jeff Dean)。试验中生成的猫脸像被揍过一样,如果不说明,一眼还不容易看出来,但它的出身注定要写进历史。
因为这实在才是 AI 图画真正意义上的起点。
这里要用通俗的概念科普下,什么是“深度进修模型”。简单说来就是需要向这个“模型”大量“投喂”外部标注好的训练数据,然后让它根据输入的预期效果进行反复调整与匹配进行输出。这样说吧,蒸汽机刚发明的时候,按燃料热值产出效率才 3%,“深度进修模型”的产生效率可能只有它的百万分之一,所以超贵。
但不管如何,猫脸的出身让人人备受鼓励,各路人工智能领域大神开始一路狂飙,闷声干大事。很快时间就去到 2014 年,加拿大蒙特利尔大学有个爷们提出了“生成对抗网络”算法进行 AI 图画,简称“GAN”。
GAN 的原理是它拥有两个深度神经网络模型,一个叫生成器(Generator)一个叫判别器(Discriminator)。
为了方便理解,可以做个比喻,生成器就像乙方,负责做图,判别器就像甲方,负责说不行。每次乙方做完一张图出来甲方就说不行,要改,乙方改完出来甲方还说不行,继续改。如此循环上万次(很短时间内发生),直到双方筋疲力尽,甲方决定妥协,乙方也准备不要尾款算了,然后就输出一个最终结果。坦白说,GAN 的输出效果已经让人惊艳,一度成为 AI 图画的主流方向。但缺点是非常费硬件(显卡),出图过程经常直接黑屏,而且它对局部图象的理解能力差,很难局部修改,图片分辨率也较低。
到了 2015 年,谷歌推出过一个叫“深梦”(Deep Dream)的图象生成工具,这些画作全部都像有一堆疙瘩,生成痕迹明显。但也打出 AI 图画旗号,而且还专门办了个展,实在比较出戏,这里不多聊。
同在这一年,一种重要的人工智能手艺也出身,就是“智能图象识别”。
意思是计算机可以运用语言去描述一张图片,就像父母拿着卡片问 2 岁宝宝这啥,宝宝会答:大象。
这个手艺当然更先进些,比如你给一张高启强的图片它识别,它会给出一系列标签,比如:男性、黄种人、中年、老大之类。
这跟 AI 图画有什么关系呢?
就是有研究人员开始根据手艺反过来想,如果给它笔墨标签描述,是否也可以生成图片呢?结果模型真的能根据笔墨生成一堆小图片,如此一来,这个逻辑成为 AI 图画的新研究方向。
三、潘多拉魔盒
2015 年之后实在还有很多这方面不同的尝试与研究,但普遍属于上述手艺的不同优化。
真正让 AI 迎来质的飞跃是在 2021 年,网红人工智能公司 OpenAI 推出了 AI 图画产品 DALL· E。
这个版本的出图水平还很一般,但已经完全是根据笔墨提示来进行作画了。
2022 年,DALL·E-2 版本推出,水平大幅提升,AI 图画就是这个阶段开始获得广泛关注的。而且更关键的是 OpenAI 公司开源了 DALL· E 的深度进修模型 CLIP(Contrastive Language-Image Pre-TrAIning)。
CLIP 模型训练 AI 同时做两件事情,其一是理解自然语言,其二是视觉分析,然后通过不停训练来优化两者对应程度,比如将马桶跟马桶图象完全对应上,如果马桶对了茅坑就得再来,最后形成“咒语图画”这样的局面。
问题来了,过来的 AI 图画模型实在也有干这件事情,为什么 CLIP 如此优秀?明显,就是 CLIP 做训练的量远远超过过来任何模型,据说大致是 40 亿个以上的“文本-图象”数据,而且跟过来其它模型不同的是这些数据是免费的,并非人力成本天价的标注图象,因为鸡贼的 CLIP 采用的居然是广泛散布在互联网上的各种图片,这些互联网图片一般都带有各种文本描述,比如标题、注释,甚至标签等等,这些天然资源就是最佳的训练样本,果然是思路一变,市场一片,随后就很快出现不少超级厉害的应用工具。
比如 2022 年 2 月,SomnAI 等几个开源社区做了一款 AI 绘图生成器——Disco diffusion,2022 年 3 月份,由 Disco diffusion 的核心人员参与建设的 AI 生成器 Midjouney 也正式发布,Disco diffusion 跟 Midjouney 问世后都在不停进步。
2022 年 8 月时候,美国游戏设计师杰森(Jason Allen) 就凭借一幅 AI 图画作品《太空歌剧院》(Théâtre D’opéra Spatial),斩获美国科罗拉多州博览会美术竞赛一等奖。
当杰森公布这是一张由 Midjouney 创作的 AI 图画作品时,引发了大部分参赛者的愤怒,也引发新一轮针对人工智能手艺的讨论。再随后就到了 2023 年,相关发生的事情人人历历在目,此处不必重复。
四、未来的展望
AI 从图画进一步拓展到不同领域可以说是必然发生的了。
但关于展望,我感觉应该尽量积极点,就是 AI 手艺将被多国联合驯化,结合到经济发展中产业化,创造出更多岗位,如同 15 年前不敢想象人居然可以全职就对着手机说话,并且优秀的还赚不少钱。
直播与短视频产业带动了很多故事策划、文案创作、视频拍摄、特效制作、服装道具、音视频硬件、场地租赁等等商业需求,也盘活了过来很多传统行业。
这些事情是抖音 1.0 无法想象的,他们也许最初只想做一款成功的娱乐应用,而 AI 最初也只是想尽量干出人类能干的事情,更关键的是,AI 只能知道过来人类想过什么,永远不知道人类接下来会想什么。