创意真的可以被计算吗?
范凌老师说:“创意可计算和不可计算,不是黑与白的关系。当把它变成对立的时候我们会逐步忘记这中间可能会产生很多有意思的东西。在两者之间,这个沼泽地,其实是生命力最旺盛的。”
更多AIGC干货:
一、我的纠结:理工科与艺术设计怎么融合?
我有两份全职工作,第一份全职工作是同济大学设计人工智能实验室的主任、教授、博士生导师,第二份全职工作是特赞公司的创始人兼 CEO,每天工作时长 16 个小时。
身兼两种全职工作,前者围绕技术,后者围绕创意或设计,我一直致力于将二者结合。特赞公司的名字由此而来,即 Tech(技术)+Design(设计)=Tezign,中文谐音:特赞。
我从小就比较纠结,既想要左又想要右,我学的是理工科,却一直把艺术当做爱好。十多年前,我一直在做科研,在美国和中国教书;过去八年,我一边教书一边创业。我认为自己的使命就是要把技术和创意结合在一起,而这不仅需要丰富的学识,还要有埋头苦干的创业者精神,这两点很符合我个人纠结的特点。
2008 年,我在普林斯顿听了弗里曼·戴森的讲座。弗里曼·戴森是一位距离诺贝尔奖很近的物理学家,但他最后选择做科普,现在他是一位科普大家。这次讲座后来形成了一篇很有名的文章《鸟和青蛙》,主要讲述了现代的科学发展离不开两类人,一类人像鸟,一类人像青蛙。前者的代表人物是笛卡尔,坚信“我思故我在”,万事万物都需要先进行思考;后者的代表人物是培根,坚信“实践是检验真理的唯一标准”。正是因为这两种角色一起存在和发展,才出现了现代物理。
今天我借用这两个视角,讲解创意生产力的发展过程。
二、我们如何把创意变成数据?
如何把创意变成数据?
实际上,每个人都在生产数据、消费数据。互联网上有各种各样的统计方式,比如,5%的数据称为结构化数据,95%的数据称为非结构化数据。
什么是结构化数据?结构化数据是所有可以用 Excel 表格处理的数据,是关系型的,例如 1+1=2。上一代的数据库就是关系型数据,其解决了结构化数据被记录、被计算的过程。
什么是非结构化数据?人类创造的很多东西都是非结构化的,例如图片、文字、视频、模型、交互等等。
如果想让机器“有眼睛”“能看得见”,需要一个很重要的数据集——imageNet,imageNet教会了机器如何看图像。
过去几年,我们一直致力于让机器理解非结构化的事物,或者理解人的创意。我们想让有眼睛的机器有审美,所以我们做了 designNet,教机器去理解什么是创意、设计、色彩、组合。
以此图为例。左侧是 imageNet,上面标记了人、脸、字、吃的东西,右侧是 designNet。事实上,机器“看得见”并不代表它具有审美,imageNet 不能理解图片的风格、颜色的组合,它主要是给图片打标签,在完成大量的打标签工作之后,imageNet 就有了“眼睛”。
下一步,我们计划让机器学习创意和设计知识,让机器去读文献、文档、书籍。数据集主要用于识别,知识图谱开始把识别的东西互相建立关联,如同机器先学理论再运用于实践一样,有了数据集和知识图谱,就相当于机器有了设计的基础知识,可以进一步理解设计并进行创作。
我们公司有很多年轻人头发每周都会换一种颜色,他们称这些颜色为亚文化色彩,就是摇滚乐海报上颜色的配色。基于对使用人工智能图像识别、色彩识别等手段来进行颜色识别、文化研究分析、建立逻辑规律的思考,我们启动了亚文化色彩的数据集研究。有了这个数据集以后,一方面机器可以帮助我们更好地理解亚文化色彩的文化现象,另一方面我们可以给任何东西配上亚文化色彩,让它再潮一点。
后来,一个朋友告诉我,我们关于亚文化色彩数据集的研究过程就是文化分析。现在越来越多的人文类研究都开始加上了量化的翅膀,比如陈志武教授用量化的方式研究历史,此外还有量化经济、量化城市研究、量化社会学,等等,当然也包括量化理解创意、理解设计。所以,现在的文科理科化、工科化是普遍趋势,同时人工智能、计算机运算的门槛越来越低,也让很多具有人文背景的人可以使用理工科的分析手段。
我们公司的员工都特别希望把创意变成数据,任何时髦的文化现象都想进行文化分析。前段时间公司做了一种盲盒,包括不同的形态、构造、主题、色彩、价格等,同时也做了盲盒的数据集分析,我们把这一系列过程称之为创意的可计算性。
创意的计算过程呈金字塔形状。
首先是观念。人类有着千奇百怪的观念,观念通过某种内容的形态来进行表达,例如图、文、视频、模型等等。创意变成内容的时候会有一点衰减,但是不变成内容,创意就无法被交流,创意一定要落实为某种内容形态。
其次是内容。内容由很多要素组成,比如一张图可能由不同的图层组成,人们需要对这些不同要素进行标签,然后将其翻译为机器可理解的语言,这就是 Metadata,即元数据。
让创意变成数据的过程,都是从观念到内容,最终到机器可以理解的元数据的过程,我们把这个过程叫做解码。
我们希望所有的解码都可以是系统化的,不只要给它设计一个流程、一个模型,还要给它设计一个工具,让解码从创意、从观念到内容、到元数据的过程变得非常顺利,这个工具就叫做 DAM,Digital Asset Management,即内容资产管理系统。
很多朋友好奇,创意真的可以计算吗?在我的理解中,创意之所以需要被计算,是因为人们承认创意有很多不可被计算的部分,可计算的部分越多,对不可被计算部分的理解就会越深刻。正如亚里士多德所言,知道的越多,知道自己不知道的就越多。
人们用机器、人工智能、新的技术手段去理解创意,目的不是让创意变成枯燥的元数据,也并不意味着衰减的过程是对的,重点在于要通过衰减的过程,让人们理解每次衰减的代价是什么,从而理解不知道的那部分是什么。创意可被计算的部分越多,不可被计算的部分就会越被欣赏。两者之间并非非黑即白的对立关系,这样就不会扼杀更多的可能性。
如同研究量化历史的人,一定相信还有一个历史叫作传记历史,但当人们只把历史理解为传记历史、人文历史的时候,其实忽略了很多的宏观现象,从而变成去理解一个个故事。人们要通过平衡地看待事物,从而看到事情的一边和另一边,理解这一边和那一边的局限性。
三、我们如何基于元数据生成创意?
从观念到元数据的过程是做减法,而从元数据生成内容的过程需要做加法,这个过程叫作编码。
生成不是一个新概念,过去 100 年中很多艺术家都想过生成艺术,只是在过去的 10 年时间里,这项技术变得更可行了。2016 年多伦多大学一位博士生写了一篇文章叫《Generating Images From Captions With Attention》,这是关于生成式人工智能最早的文献,文章中提出通过文字生成图像。
这篇文章中列举了一些机器生成图片的例子。在第一行第三张的图片中,一个绿色校车停在一个停车场里,校车正常是黄色的,所以当它是绿色、红色、蓝色校车的时候,就代表这些校车从未在索引库里发生,即他们是生成的。从这一时刻开始,第一次有计算机从元数据中生成了内容,这是一个伟大的时刻。
2019 年,我们公司针对商业场景进行了生成,当时对营销图片的需求量很大,并且工作具有重复性,我们就做了一个生成的机器,从数据集、模型、算法到工作流全部从零搭建,并且实时反馈和优化,投入成本非常高。
2020 年,进博会期间,我们做了一个“金山农民画”的生成系统,主要内容是关于上海传统手工艺。当时,我们想破除人们将人工智能和手工工艺相对立的惯性思维,为什么传统和新生事物一定要对立,而不是通过人工智能推动手工艺发展得更好?
很少有人了解“金山农民画”,因为没耐心学习,传播也不够,于是我们做了一个生成系统,让每个人都可以像画草图一样生成金山农民画。
我们是如何做到的?
首先,要建立金山农民画的数据集。其次,要做一个算法。第三,要做一个系统。在这个过程中,我们做了一些人文性的思考,我一直强调:“前面要有技术、背后要讲人文”。主要有以下几方面思考:
第一个思考,到底是从无到有的生成,还是拿金山农民画数据集里的一些元素重新排列。
第二个思考,生成的是 60-70 分的结果,还是 100 分的结果。
最后我们的选择是,用原有的元素进行重组,做一张 60-70 分的图。为什么?用原有的元素代表我们尊重金山农民画原来的素材,做 60-70 分的图是希望让原有的艺术家们感觉到新技术不是在取代他们,而只是在科普的过程当中让民众上手的门槛更低。每一项技术背后都有一些社会性、人文性的思考,从而决定如何使用技术。如果只强调降本增效,只强调长期的发展,并非最佳选择。至此,我们摸索出了人工智能和手工艺相辅相成的范式。
我们公司有很多年轻人喜欢跳街舞,以往跳舞都要先有音乐,因为音乐很难找。但是,我们的音乐生成系统可以让大家先有舞步,在规定的地方有节奏,然后重新生成音乐。我们有属于自己的 BGM,声音来源于公司各个角落里收集来的声音,然后用 AI Remix 混在一起,在此过程中,人机协作创作过程开始走向多模态。
人工智能在过去一年里发展得非常快,未来 10 年里会有 66%的内容是由生成式人工智能做出来的。用两组数据来着重体现下,从智能手机的元年到智能手机的第十年,大概有 31%的手机变成了智能手机,云计算的元年到云计算的第十年,大概有 55%的计算变成了云计算。生成式人工智能会比云计算和手机的渗透率更加迅猛,这是美国投资机构 Besmer Ventures 进行的数据统计。
内容或者创意被生成出来,对人类的工作和生活意味着什么?日常生活中,绝大多数人的讨论都集中在降本增效方面,中文语境里很少讨论如何让人类更富有创造力。当把创造力和生产力相对立的时候,人类会逐步忘记两者中间有很多有意思的事物存在。
美国一位经济学家格雷戈里·克拉克画了《一张图的世界经济史》,横轴是时间,纵轴是相对人均收入,图中的拐点是工业革命。工业革命之前,人均可支配收入没有很大变化,称为马尔萨斯陷阱,即事实上人们没有办法突破。直到工业革命开始,人们的可支配收入发生了巨大的突破。这张图隐含的就是,经济史、政治史和每个人生活所运用到的技术和技术的历史是同构的。
我在这里再增加一个维度,大家可以从网上搜索“创意”一词是什么时候出现的,注意,搜索“创意”一词而非创意,创意毫无疑问是和人类发展同时发生的,但是人类开始用一个词的时候,就代表着开始有意识去做这件事了。通过“创意”一词出现的频率可以得出,虽然人们没有办法确认技术发展一定和创意有关系,但至少和谈论创意的次数有关系,创意是很难被量化的,但是谈论创意的次数是可以被量化的。所以,这代表人类有意识做创意这件事是生产力极大释放以后出现的,是人们生活水平开始提升以后出现的。
四、从文艺复兴到 AIGC:创意产生的机制
当把创意和生产力建立连接的时候,我们发现这两者不应该被矛盾对立起来,就像人们在讨论 AI 的时候,不应该说 AI 提高了生产力,导致创意工作者失去了工作。
如果一直往前追溯,从文艺复兴时期开始,就有一种称为透视的技术出现,有了透视以后绘画才可以被教授,绘画才成为了一门技艺。
荷兰艺术家维米尔最著名的一幅画叫《戴着珍珠耳环的少女》,这幅画具有一些鲜明的特点。首先,画幅特别小,画像的脸跟真人的脸一样大。其次,维米尔对光影掌握得特别好,好到不使用仪器就无法辨别的程度。很多艺术工作者很好奇,维米尔到底是如何作画的。
2013 年,获奥斯卡提名的纪录片《Tim's Vemeer》,就是讲述维米尔绘画故事的。纪录片复现了维米尔的使用工具和绘画过程,先是做一个投影仪,通过小孔成像投射到房间内再进行绘画,这与人们意识中定义的传统艺术家并不相同。区别于单纯用画笔绘画的传统艺术家,维米尔做了一个暗房,通过小孔成像、再将倒影二次折射,形成了画像的正影。
如此看,维米尔是艺术家还是工程师?艺术和数学是矛盾的吗?在我看来,这些矛盾都是人为造成的。在维米尔的时代,他的画室是不允许参观的,如同现在的研发实验室一样。维米尔的画室位于荷兰的一个小城市戴尔福特市中心教堂旁边的二层,为什么维米尔只能画人物、静物?因为只有摆在房间里才能用小孔成像。为什么维米尔的画都不大?因为他的画室并不大。为什么维米尔对光影掌握得如此精细?因为他是采用小孔成像原理进行描绘的。这个过程给予了我很大的启发,人们很容易将先进工具和手段同创意对立起来,但在文艺复兴时期,创意就是做工具。
先是透视,再到暗房。暗房之后出现了一个对艺术具有毁灭性意义的工具,即照相机。照片比人画得快、比人画得便宜,但艺术并未因此消失,艺术家们开创性地发明了画得不像的艺术、画得朦胧的艺术,甚至艺术从墙上到了地上,从静态到了动态,从动态变成了文娱产业、游戏产业。每一项技术的出现,都会让原有技术人才的工作显得更不重要,但新技术的出现是为了解放人类,人们有了更多的时间精力去思考增量、去创造新的东西。
上世纪 60 年代的媒体学家麦克卢汉推动了整个硅谷媒体的传播,他有一句话非常有意义:“首先我们塑造了工具,然后工具再塑造我们。”人们塑造了一个工具,工具改变了人们的生活,但人们也会创造一个新的环境、新的场景。当一项新的技术惊世骇俗地出现,没有比现在更需要人类创造力的时刻了。
到底什么在变?
第一是工具。照相机是工具,电脑是工具,农耕革命的很多东西也是工具。
第二是因工具而带来的工艺。
第三是观念。
工具每一次的进化,都让人类表达观念的工艺变得越来越容易。例如,没有透视之前,画家们教学、表达都十分为难,因为连近大远小都没有成为规律,透视本身就是个工具,透视出现后,就可以用其教学了。照相机和电脑也是如此,每一代的工具都是为了降低人类的创作门槛,从而让人们更好地表达自己,让别人更好地理解自己。现在 AI 时代来了,也依然如此,AI 让表达和创意变得更民主、更大众化。
现在人们使用手机进行绘画非常容易,就像说话一样轻松,只要输入提示词,自动就会出现绘画甚至视频,未来还会出现 3D 模型。原来需要花费大量时间和精力去经营的工艺,现在变得越来越简单,这样就会让更多人开始使用工艺,来表达更丰富的观念。
五、AIGC 将如何影响创意生产力
新工具的出现会对工作产生何种影响?
MacPaint 是上一代电脑的画图工具,是 PhotoShop 的前身,MacPaint 出现后通过不停地迭代,出现了众多电脑画图工具,这产生了两个影响:
第一,排版工人从历史上消失了,2002 年最后一个需要排版的印刷厂正式关闭。 第二,PhotoShop 的出现让创意工作发生了巨大变化,美国的数据显示,因为 PhotoShop 的出现,平面设计师的工作涨了四倍。
由此可见,由于工具的出现,短期内肯定会让一些工作被取代,但长期看又会带来新的创作者,会产生另一些工作的繁荣。
历史是一支箭,它来自远方,射向未来。AIGC 就是这支刚刚射出来的箭,它可能是五十年一遇的技术突破。上一次五十年一遇的技术是计算机图形学,因为有了计算机图形学,才有今天人们使用的计算机。在发展计算机图形学的过程中,犹他大学作出了重要贡献,其中有一位 Ivan Sutherland 教授,他培养了四个学生:第一位学生是 John Warnock,创立了 Adobe 公司;第二位学生是 Ed Catmull,创立了 Pixar 公司;第三位学生是 Nolan Bushnell,创立了一个游戏机公司;第四位学生是 Jim Clark,创立了网景公司,第一个商用浏览器。每一个工具、每一个产品、每一个人做的事情都是划时代的。
所以,AIGC 带来的机会不一定出现在大厂,不一定出现在名校,可能出现在一个地方、一小撮人,可能会用这些新的技术改造创造一种新的模式。目前还没有一个 AIGC 格式可以创造一种新的内容生产方式,人们只看到用 AI 做传统的内容更高效,未来是否会出现一个从无到有的行业,还不确定。AIGC 带来了一场巨大的爆发,这个爆发既有生产力的爆发,像 PhotoShop 一样,也有一种质的爆发,爆发出一些新的物种。
乔布斯提出,我们只能往后看。发生了以后回顾过去,好像事情都很有道理,但事实上,往前看的时候都是一步步做出来的。既然往前做具有未知性,人们就要抓住一些本质问题或者元问题。
OpenAI 的 CEO Sam Altman 发过一条推特,可以用公式表达为:创意=(过去的混剪+灵感)x(反馈质量+迭代数量)。Sam Altman 下面这句话更关键,人们总是容易觉得创意要最大化灵感,但事实上应该最大化后面的两个关键词,即反馈的质量和迭代的数量。人们总认为创意是灵光乍现的,但 Sam Altman 强调,第一,它是过去东西的编辑,第二,它要靠高质量的反馈和多数量的迭代。
《从优秀到卓越》一书里讲了一个很重要的观念叫飞轮(Flywheel)。什么是飞轮?一件事情可以慢慢开始做,然后越做越快,越做效果越好。如同亚马逊的飞轮,通过更好的客户价值带来更多的销售,更多的销售又带来更低的成本,更低的成本又会带来更好的客户价值。AI 也是如此,更好的数据、更好的算力会带来更好的模型,更好的模型、更好的提示词会带来更好的内容,更好的内容又会回去成为更好的数据,AI 真的是不停地在迭代和反馈的。
人类如何参与到创造之中?很多人的想法还是依靠偶尔迸发出的灵感,但是创意产生过程并非如此。海明威的创作方法很独特,第一稿往往是一只脚站着写,逼迫自己加速完成,然后躺在沙发上抽着雪茄慢慢改。对于这些创作者而言,没有一气呵成地完成作品,创意的过程处于不停迭代中,就像飞轮一样。
新工具的出现,会让创作的成本越来越低,会让人们的表达越来越容易,让大家在同一个时间内做东西越来越容易、越来越多,人们可以有越来越多的时间去思考和讨论。简单地说,在 AIGC 时代,人们应该更多地考虑如何更高效率、更高质量去做创意的迭代和反馈,这是机会,也是挑战。
六、新商业场景下 AIGC 已必不可少
作为大学教授,最大的痛苦不是发论文,而是如何证明自己的工作有价值。八年前从学校实验室开始,我开办了技术型创业公司,先融资,然后做产品技术,再做市场,这个过程重复了八轮,伴随融资的增多,公司在研发方面投入很大。
特赞主要从事企业服务,服务的行业包括快消、美妆、鞋服、零售等等。疫情期间带来了数字化诉求,公司看到了一些新的行业机会,即商业场景。企业愿意付费的商业场景一般是具有通用性的,其核心与增长营销有关,所以特赞将商业场景作为重要内容,尽管技术公司可能最终很难逃离和营销有关的行业,但特赞重点是做产品技术,我们只是工具而已。
我们在每一个行业中非常谨慎地挑选一些种子客户,这些种子客户会把自身行业的特殊性带到我们的技术里,让我们开发出软件和服务。
《人类简史》《无穷的开始》《叙事经济学》这三本书,都在讲故事对人类进化的重要性。在《人类简史》一书中,有一个故事印象非常深刻,智人能够战胜尼安德特人,是因为智人会八卦,八卦代表很多事情可能是假的。这个故事很有启发性,八卦本来是贬义词,结果是推动人类物种发展的一个很重要的动力。
《无穷的开始》的作者 David Deutsch 在书中讲解了无穷的开始,书名下面有一排小字,即“改变世界的解释”。David Deutsch 提出,不同的科学工作者不停地在寻找科学现象、寻求科学解释,人们永远无法证明科学一定对,但是永远有一个更对的解释,即用公式来解释、用道理来解释。所以,爱因斯坦对于宇宙的解释要比牛顿更好一点,人们就愿意相信,以后还会有更好的解释来取代爱因斯坦,科学也是这样。
为什么人们愿意相信一张纸有价值?为什么人们相信看不见的数字货币有价值?为什么人们相信同样的产品领域一些品牌比另一些品牌更有价值?《叙事经济学》一书中讲解到,经济学里的很多价值是通过叙事来实现的,帮助企业更好地叙事才能获取价值。更好的叙事是通过各种各样的内容来展现的,包括图的内容、文字内容、视频内容,种草内容,品牌内容等等。
过去几年,品牌内容的生态发生了巨大的变化。
一是内容的触点变多。包括线上的触点、线下的触点、自营的触点、第三方的触点等等;
二是内容的速度变快。四五年前的企业可能一年只需要做四次内容,现在企业下设的每个店每天的内容都不一样;
三是内容的类型变多。起初是文字的内容,像报纸;后面发展到有声音的内容,像电台;再之后有视觉的内容,像电视;现在有各种各样的内容,像元宇宙的内容,很多品牌还喜欢做播客内容。此外,不仅要有内容,还要千人千面,如同有多少亿的消费者就应该有多少亿的不同内容。
过去四五年时间里,受数字化以及线上丰富度等因素影响,内容格局已经发生了巨大改变,人类已经无法解决这些问题,只能依靠“人+机器”。
如同维米尔创作需要先设计一个工具一样,在当下的环境中,如果想要用技术解决问题,想抓住 AIGC 带来的机会,不应该只在表层做应用,而是要建立一个属于自己的基础设施,在推动企业效益发展背后一定有体系性的东西存在。
在体系性中,需要借用一个技术词“Stack”,即中文的“栈”。前面要有一个可以交互的界面,后面要有一大堆东西,最底层到 GPU,到数据库,最表层是品牌在哪里经营,每一个经营场景背后是各种各样的经营阵地,所有公域都要花钱,私域需要企业自建。
阵地下面就是在表层交互之后的东西,称为数字基建,以往称为中台。每个品牌第一步要做的是把自己的产品管好,所以叫产品的技术栈,其中有产品管理系统、产品供应链系统等等。过去五六年时间里,很多企业开始做用户资产管理,一些企业将自身转型定位为以商品为中心向以用户为中心发展,就需要围绕用户建立服务流程。当企业知道用户是谁、知道自己的产品有什么,就需要把产品和用户之间关联起来,这称为内容的技术栈。
内容技术栈是什么意思?大家可以将其理解为冰山在水下面的部分。产品、用户、内容都很重要,而且因为产品和用户先行,它的技术成熟度会更高。而现在内容刚刚建立,里面就包括了内容如何更高效地生产、更多元地生产、如何更好地管理、如何分发出去。
七、我们的 AIGC 实战案例
企业首先要建立一个元数据的体系,让所有的内容都可以被机器理解和认识,让所有的内容形态、图文、视频、内容标签、内容流程、内容交互都在其中。
举个例子,在过去的传统模式中,一个待上架商品需要发一封邮件,表述自己的产品要在双 11 期间销售,邮件串会非常长,并且不便搜索、不好归档。现在的模式是把所有的内容都放到一个看板上,商品上架有各种各样的点位图,看板能够智能识别。在内容管理系统里,哪些图符合内容上架的要求就可以填上,填完以后就可以一键上架,如果哪些图表现的不好,就可以在小程序中将数据收回并替换图片,整个过程从一个静止的邮件变成一个动态的面板,并且面板的每一张图背后都有出处,这里就把内容连接起来了。
连起来的好处是什么?企业可以进行分析,可以针对某一板块内容做系统化替换,可以使用 AI 技术、使用无限画布不停延展出新的内容。例如,最简单的大促上新场景,就可以使用 AI 不停地生成。
在另一种用户场景中,可以把创意的可计算性发挥得更好。如果一边是枯燥的商品,一边是丰富的内容,那么就可以用条形码把内容和商品关联起来。为什么要关联起来?因为内容决定着商品是否能卖得出去。
例如某线下商场,如果一家企业的内容不够,商场是不会为企业做活动的。CEO 每周的管理会上,会同每一个业务线的 GM 校对内容,确认内容有没有之后再确认内容好不好,有内容就代表企业不会错过活动,所以要把商品和商品对应的内容连接起来。SKU 在线上线下端大概需要在 100 个渠道,每个渠道至少需要 10 个以上的内容,一些内容还要有 10 个以上的点位,有一些点位还要做到千人千面,每个点位还要有大量的内容变化,即一个商品上千个内容,如果有 100 个、1000 个商品,内容的数量是极其巨大的,所以需要这样的方式去对应和管理。
在对应管理之后,商品的元数据就有可能和内容的元数据关联起来,因为这些内容都是有商业目的的。所以,还可以增加两个维度:第一个维度叫“商业数据”,为什么要做这个内容?拉新,留存,吸引哪一类消费者?第二个维度叫“效果数据”,内容表现如何?依托这两个维度,可以更好地把商品和内容的关系连接在一起。
商品和内容连接在一起以后可以干很多事情。例如,人们可以用 AI 来做图或者视频,既然知道这些内容表现在哪些地方,用哪种脚本表现会更好,人们就有可能把这些脚本抽离出来,换产品,换角色,换场景,做成大量的内容混剪。脚本的抽离可以用 GPT,换场景可以用图像识别,这不是一个简单的单一技术,而是多个 AIGC 技术的结合。
某鞋服品牌案例
某鞋服品牌的 KOL 代言的鞋子与其代言人有时并不相符,比如一个很壮的 KOL 男代言一双很纤细的跑鞋,我们要做的事情就是把所有的商品和 KOL 关联起来,让内容和商品之间的关系对应。我们在鞋服行业开展了大量的生成工作,有机会把阿迪达斯或者其它鞋服行业的内容表现数据收回,收回之后按照过去表现好的内容去重复内容。好的内容不是靠眼睛,而是要依靠过去的内容表现才能预测下一个好的内容。通过这种方式,生成小红书文案、视频和图片,成本很低,效果很好。
某美妆品牌案例
某美妆品牌因为高客单价开始做用户旅程经营,需要将用户喜欢的内容和每一步的转化发生关系。我们通过区分多种路径进行推广销售,每个路径的前端一定是导购服务,每个导购要服务几百个客户,我们的工作是让导购们变得更加个性化,让导购知道如何与几百个客户之间智能对话,应该推荐哪些内容。其背后都是内容的标签、元数据,然后用 AI 生成个性化的导购语,不仅让导购能够顺畅应对几百个客户,还可以让每个客户都感受到自身的重要性和特殊性。
这些企业和品牌的案例,一方面需要企业每一个人的聪明才智,另外还要有技术基础 Stack。在我们与一些合作伙伴的交流中发现,很多企业的团队无法匹配我们的想法,就像不能指望砖混结构的房子能够盖六层以上,只能更换结构用钢筋混凝土去完成目标,其本质就是下面技术 Stack 的问题。
《技术的本质》一书的作者说过一句话:“技术是被捕获并加以利用的现象的集合。或者说,技术是对现象有目的的编程。”其实,技术的背后都有目的性,这些目的性能够通过技术变得更加普适。人们塑造了工具,工具再塑造人们,人们塑造了技术,技术再塑造了人们。当企业开始不停地强调自己无法做出这些技术的时候,可能不是人的问题,而是背后的架构问题。
八、人机协同,未来的“我”与 AI
无论是从鸟的视角还是青蛙的视角,看的都是科技赋能想象力和创意。但另一方面,AI 也给人类带来挑战,一些人关心儿童教育,年轻人关心个人发展,创业者和客户关心是否应该及早入局 AI……这些问题的背后,是人类对于不确定环境的焦虑体现。这需要我们重新关关注一个词——“我”,这里的“我”泛指每一个人,可以从以下几个关键词展开:
第一个关键词是想象。现在没有比想象力更重要的,AI 的出现不是人们失业和创意贬值的罪魁祸首,相反会推动另一代的创意出现,就像照相机的出现影响了印象派的形成。我个人受尼葛洛庞帝的影响非常大,尼葛洛庞帝在麻省理工学院进行了一些尝试,并将这些尝试系统化地变成了创新标志,即媒体实验室,区别于以往将创意限定在具体东西的理念,尼葛洛庞帝希望创造一种关系,他做了一个很像三维打印机装置,中间有很多金属块,里面有一只小老鼠,金属块会随着小老鼠行动的轨迹改变装置内部空间,尼葛洛庞帝将其表述为营造一种小老鼠和金属块的关系,这句话创造了一个新的学科——交互学,我的专业就是人机交互。如今,互联网是交互,智能手机是交互,交互成为了创造的对象。
尼葛洛庞帝退休后做了一个项目,One laptop per child,即每个孩子有一台笔记本电脑,这是个延续交互的想法。尼葛洛庞帝认为,如果想解决非洲人的贫困问题,不应该只给他们钱,能否给每个非洲孩子一台足够廉价、足够耐用、可以联网的电脑,孩子天生爱折腾,用电脑联网之后就会不断探索,只要给他们一个工具,他们就可以提升个人认知,认知提升后就可以影响周围的人,整个村庄的认知都有可能被改变。我个人非常认同此观点,知识不应该被教,而是被影响。
我们公司也做了很多不赚钱的 AI 产品,比如 MuseAI。最近我们公司也在同学校和 NGO 开展合作,NGO 的一位负责人感受很深,他认为农村里的孩子在学习方面并不差,但是同城市的孩子相比,他们往往没有见过人造的美,比如艺术、音乐等,这些孩子没有创意的自信,也不知道自己是否有创造力。我们公司在与机构合作初期,就用一些简单的工具让农村的孩子们进行简单创作,这些孩子非常享受,给予我们的震撼和影响很大。
第二个关键词是创建。上图是 1976 年在佳酿俱乐部的乔布斯和沃兹尼亚克,作为两个辍学生,他们牢牢抓住了那个时代技术刚刚萌芽的芯片、电路板和个人电脑。同理,当下人们面临的情况也是一样的,人们可以讨论、质疑,但都不及动手干一干。我们公司的口号只有一个,It's time to build and create,即“别说,干就完了”。这个时期没有事情是可以想清楚的,只能干清楚。
AIGC 技术在 ToC 的场景中,基本上都是对话机器人,但真正用它解决商业问题的时候,会发现它还为时尚早。早年电脑里的扫雷游戏主要靠双击鼠标左右键完成,因为这款游戏除了娱乐,更重要的是让用户知晓如何使用鼠标。以往人们不会使用鼠标,但一旦熟悉之后会感觉特别好用。AI 也一样。
设计科学家巴克敏斯特·富勒讲过一句话:“通过在环境中引入新的物体,从而引发人们对于此物体的自发使用,从而碰巧让人们放弃过去产生问题的行为或设备。例如,当人们有迫切的需求需要穿过一条湍急的河流,作为设计科学家,我会设计一座桥,我很确定,这会使他们自发并永远放弃游泳到彼岸这个危及生命的行为。”当人们开始使用新工具的时候,要把它想作是这座桥,然后要找到彻底解决问题的方式,并且时常尝试。
第三个关键词是快乐。2019 年之前,我们公司做过一些人与机器协作的研究,比如脑机比,就是研究工作中人与机器的关系。
在图中显示的三种关系中,第一种关系是事情越来越自动化,机器越来越可做,即 Capability 脑机比 1。第二种关系是有些工作机器很擅长做,但是个人做也很享受,人们不想给机器做,即 Subjectivity 脑机比 2。比如,一些设计师喜欢找资料,翻译为机器语言即数据挖掘,这是机器很擅长做的,但是设计师们很享受找资料的过程,不愿意让机器做。第三种关系是信任,从统计意义领域而言,无人驾驶是安全的,但是人们永远无法信任空着的驾驶座,这是文化性的信任使然,即 Trust 脑机比 3。
有些工作是人们确实不喜欢做的。很多时候不是工具抢了人们的工作,而是人们抢了工具的工作。但是千万不要忘记所有工具和软件的开发,都是以人为中心的,它一定要让人类工作和生活得更开心。人类在与工具共处当中,应该思考增量的地方在哪里,人类不开心的地方在哪里,是否能够通过使用工具来予以解决。