1 月 10 到 11 日,机器之心「AI 科技年会」在线举行。本次活动中,基于对 2022 年人工智能研究、技巧和使用的观察,机器之心邀请业内知名专家、高管及本年度深度合作企业,共同总结了过去一年人工智能的重要经历与成果,讨论了未来 AI 的发展方向。
在大会第二天「AIGC 技巧使用论坛」上,baidu文心一格总架构师肖欣延博士作了主题为《跨模态实质生成与技巧与使用》的演讲。以下为演讲全文,本文从事了不改变原意的整理。
我叫肖欣延,现在主要在baidu负责实质生成及 AIGC 技巧,也是「文心一格」的总架构师。今天我报告的题目是《跨模态实质生成技巧与使用》。
今年大家都很关注人工智能领域的一个方向 —— 实质生成。从图象生成角度来看,下图左边是 2020 年图象生的水平,是很有代表性的一个拍卖画作。到了 2022 年,技巧已经相比之前强了得多。我们任意说一句话就能生成一张非常精致的图,不管是非常复杂的山水图,还是很精致很细腻的人物画像,都能做得很好了。我们可以感受到整个实质生成方向的进展是非常迅速的。
其实除了图象生成,语言生成的进展也很快。直观来说,以前更多的是在比较短的文本上生成得比较好。但到了今年,长文本的实质,比如故事生成、长文案生成,还有多轮聊天,文本生成都能做得很好。它能兼顾到前后的连贯性,甚至有时能保证逻辑上的一致性。
更综合的就是视频创作。视频创作是让机器可以或许自动创作出一个完整的视频。视频会涉及到文案、画面和歌曲等得多元素。这是baidu最近在万象大会上发布的,由 AI 度晓晓作词作曲演唱的 MV《启航星》,内部所有的画面都是用baidu的文心一格画出来的。可以或许看到 AI 能根据歌词的变化,每个变化切换一个场景。
全体上,前面讲到的这些都是智能实质生产,也就是今年大家常说的 AIGC。所谓 AIGC 就是用人工智能来从事实质生产,它的特点是有非常强大的实质生产力,大幅提高实质生产的质量和效率,将来也会极大地丰富大家的数字生活。
这里给了一个简单的对比图,整个实质生产从专业的 PGC 到用户生产的 UGC,现在已经进入了 AIGC 的时代。相信 在 AIGC 的时代,整个实质生产的方式,还有实质消费的模式都会有极大的改变。
baidu在 AIGC 的技巧上有比较多的布局。不管从底层的文心大模型,包括语言、视觉、跨模态大模型,还是在生成威力上面,包括语言生成、图象生成,语音合成和数字人等,各方面都有涉及。
今天要介绍的是其中的一部分 —— 跨模态实质生成。核心来说,我们希望用文本的描述来生成视觉的实质。比如说一句话能生成一个图象,或者我们写一篇文章,能把文章自动转成视频。报告主要分成两大块,一块是文生图,我会介绍 baidu的 AI 作画产品文心一格;另外一块是文章转视频。最后,我会从事讨论和展望。
首先是文生图的部分。全体来说,文生图在 2018 年或更早就有得多研究,我们能看到从 2020 年以后该方向进展得多。从使用角度来说,很大的一个变化还是在 2022 年集中模型的图象生成出现,使得整个跨模态生成有了一种跨越式的发展。
我们可以看到,2022 年的图象生成质量相比之前有非常大幅的提高,不管是从构图,还是细节刻画上。这种扩展生成模型如图所示,其实是依照原有图象,逐步增加高斯噪声,将图象转化为高斯分布。这样的处理序列是一张清晰的图片,逐渐变成噪声的过程,这是一个前向过程。而模型要学习的是把噪声去除掉,逐渐的恢复出原始照片。
一旦我们的模型有这样威力,也就是从噪声内部去逐步地去噪,生成更好的图片,它其实上就具备了这种生成图象的威力了。
这是一个简单的描述,扩展生成从使用的角度来说有这样几个优势:首先,模型的记忆威力是非常强的。我们可以通过提高数据的规模持续地优化。在 2020 年到 2021 年的时候,像 DALL-E 这些模型的数据量的训练规模大概在千万到亿级别这样的量级。到了今年,像 Stable Diffusion 这样的模型的训练规模已经达到了 10 亿的量级。
这么大的数据之下,它对原来图片的记忆威力也挺好的,不会说因为有得多图片,有些东西就没记住。因为记忆威力很强,它的模仿威力就有一定的保证。另外现在它的建模是像素粒度的建模,所以更适合视觉的建模。它可以或许生成大像素的图片,甚至有一些技巧可以或许无限地扩大整个图片的像素,这样就可以或许生成一些实用的高清图片。
从技巧上来看,Stable Diffusion 确实打开了一个天花板,把效验的上限提高了得多。但在实际的使用当中,并不是直接使用这样一个模型,就能满足使用要求的。好的模型不是简单就等于好的体验。在实际使用当中,从创作过程来说有三个步骤是必要去解决的。
第一个是创作的需求理解。在跨模态生成内部,我们都是必要输出语言去跟模型交互的,用户到底怎样简单地输出就能拿到一个他希望的图,这就必要一定的需求理解。第二个,图象的生成,也是跨模态生成的核心的部分,在这一部分里用户的需求也得多,有艺术的、写实的,创作的模型该如何去满足。最后是创作需求的满足。得多时候生成一张结果,可能只是部分满意,怎样从事一定的调整满足用户的需求,也是必要通过模型优化去解决的。
面对这些问题,baidu研发了一套基于知识与大模型的文生图系统。全体来看,当输出文字描述以后,会先通过知识图谱做需求的理解,从事一定的文本联想扩展。生成文本以后再真正从事跨模态生成,这内部我们有得多跨模态生成模型上面的创新优化。生成完图以后,又会有基于图到图的集中生成,来支持用户做图象的编辑。最后,因为系统使用到产品上生成图象结果后,用户会有一些反馈,我们也要利用用户的反馈去指导整个学习的模型优化过程,形成一个根据用户需求去从事反馈的闭环。
首先要做文本理解,也就是我们常说的 Prompt 学习,这内部其实主要是要做一些理解,并根据知识从事扩充。
比如用户可能想画一个大楼,一开始可能没有想得很明白必要什么,会输出一个很简单的「大楼」单词。而真正的生成画作,可能有得多方面要去考虑。这个时候,模型就会从事一定的文本理解。根据分析理解的结果,算法主动地帮输出加上一些风格,比如到底是写实风格还是艺术风格,它的色调是怎么样的。当然理解跟扩充从算法上也可以做端到端的生成。不管是哪种方式生成了扩展以后, 所有构建出来的 Prompt 都会从事排序,最后分别生成图片供用户去选择。
Prompt 学习是非常重要的,这里给一些例子,我们能看到加不加这些 Prompt 的扩展,效验影响还很大的。比如我们的在文心一格上面输出「微笑女孩」,可能生成的是左边这张图,但是模型会帮他加得多扩展。比如会把这种数字绘画、逆光、电影照明,包括超精细这样一些修饰词都加入进来。
加入以后,我们能看到图片生成会更加有艺术感,质量也会更高。类似的,像天空,大海等景色的图片,都可以通过一些 Prompt 扩展可以或许使效验有显著的提高。
当然,最核心的部分还是文生图。文本已经确定下来了,输出到系统内部,效验一定要足够的好。为此,baidu提出了 ERNIE-ViLG 2. 0,这是一个知识增强的混合降噪专家模型。
从图文相关性上面来看,在跨模态生成内部,语言跟视觉之间的对应关系要做得很好,才能保证用户说什么就生成什么。技巧上主要通过对语言、视觉还有跨模态做一些知识增强,更好的实现跨模态知识之间的映射,从而实现图文相关性的提高。
另外我们也提出了一个混合专家集中模型,集中模型就像前面说的,是有从有噪声的图象逐步生成一个清晰的画面。这个过程在不同的阶段,对集中生成的要求是不一样的,所以我们设计了混合专家模型,自动地根据不同阶段选择合适的网络,生成最优的结果。这样全体上模型的建模威力也会更强,生成图片会更加的细腻,构图也更加的清晰。
从实验上也能很直观地看到效验的提高。我们在 MS-COCO 数据集上面做了自动评估,可以看到 ERNIE-ViLG 2.0 在 FID 自动评估上面是当前业界最好的效验。从人工的评估的角度,不管从图象的质量还是图文的对齐,ERNIE 的效验都会更好。
这边给了几个例子,能看到 ERNIE 能生成很精细的图,同时也会生成一些很有创意的图,比如孙悟空穿西装、熊猫在撸串。
可以看到,现在 AI 的创意威力是很强的,至少它能从过去的数据当中学习到组合关系。并且从我们的观感上会认为它有一定的创造力,虽然它还是在模仿,但会感觉它的组合威力很强,会展现一定的创造威力。
在模型上我们还有更进一步的创新。像前面介绍的模型,它其实本质上必要一个文本的输出作为条件去从事集中生成。这种模式其实就是咱们常见 Stable Diffusion 模型。它通常能生成的图就是比较具象的图,比如画人物,画一些具体的物体,它能画得很好。其实还有另外一类叫做 Disco Diffusion 的模型,它是通过跨模态来引导的,通常能生成意向的图,它比较重视全体的构图,整个构图会比较复杂。
我们的想法也比较直观:能不能把两种引导都融合在一起去支持集中生成?让集中生成既依赖于条件的输出,也依赖于整个跨模态匹配的在线的指导,这样就能同时做好两种场景,不管是画人物,还是做很复杂的构图生成。为此,我们提出了文本与跨模态联合引导的统一图象生成 UPainting。
对 UPainting 这样的模型,我们研发出来以后也做了一些评估。能看到它在图象的各方面威力上都做得更好。
这里展示了图片,不管是画一些具体的如熊猫,还是画一些具体的物体,甚至比较复杂的大场景构图,而且中间包含细节的图,现在我们都是画得比较好的。
最后一块是图象编辑。我们画了一个图以后,有时可能不是自己最满意的,希望再从事一次修改。所以我们研发了基于文本驱动的图到图的生成。简单来说,集中生成除了依赖于编辑文本的描述,也会依赖于图片的输出。并且我们有个注意力机制来保证集中过程当中可以或许更关注用户输出的编辑指令。
具体来说,图象编辑主要有以下几种功能。首先是元素修改,比如我们已经画了一只猫,但突然想给猫再加一点装饰,给它戴上个眼镜,戴上金链子,就可以通过这样的功能去生成。另外也可以做风格转换,比如像前面输出大楼,已经生成一个真实景观的风格了,但是我们希望把它改成一种比较科幻的,也可以做修改。最后是基于模型已经生成的一张图做二次生成,让模型重新生成一下,它会生成一个比较相近的同款图。这些都是图象编辑。
这些功能都已经集成在文心一格产品上,可以或许实现一语成画,别具一格的图象生成。这里给了一些我们产品上能生成的图象的例子,能看到不管是复杂的构图,还是细节刻画都是能做得很好的。
比如最左边的这两张图是偏复杂构图的,讲究整个场景意境及全体构图。中间这三张是偏具象的,更关键的是可以或许把单独物体的精细度画出来。最右边就有点综合了,既要兼顾全体的构图,也要兼顾细节上的精细度。
所以从全体创作的角度来看,各种不同的图象生成威力我们都做得不错。除了通过产品让用户去体验 AI 作画的威力,一格也在得多重要场合从事使用。如一格跟人民日报合作,根据二十大的部分关键词去生成 AI 眼中的未来的中国。
除此之外,文心一格上也在做一些新的探索与合作,寻找到底 AI 绘画的边界会在哪。比如我们跟时尚杂志 《COSMO》 合作,一起画了二十四节气的专题,并且发布了首个 AI 生成的杂志封面。另外我们也跟朵云轩合作,在全球完成了山水画风格的 AI 作画,并实现了全球首次 AI 山水画拍卖。这幅画作是非常复杂的,我们根据陆小曼的初稿生成了一幅新的山水画,受到了得多专家的肯定,最后也成功地拍卖了。
以上的第一个部分都是文生图,主要是基于语言来从事 AI 绘画。第二块是关于视频创作的,我们可以或许根据一篇文章来生成一个视频。这个功能非常简单,如图所示,用户输出图文信息,可能是一篇文章,一个搜索 query,甚至可能是一个 PPT,系统就能生成一个视频。
视频的生产其实是比较复杂的,它必要生成其中的文本、视觉,还有语音,有些时候还必要把数字人做出来。还会有视频脚本,规定了整个场景怎么划分,转场建议等。这内部要涉及到模型计算特别多。为了解决这样的问题,并不能用一个简单的模块完成,而是必要一个系统。
全体来说,我们研发的 TTV 系统逻辑上是模仿人的创作过程的。首先要做文案的理解和组织。还要有一个素材库,这个素材库里有些是从网上获取的真实素材,也有可能是通过 AI 生成的素材。素材都有了以后,再去做所谓的编排,把素材跟文案做对齐,保证最后生成出来的字幕音频和展示的视觉画面是对齐的。
这内部的思路有几种。一种是全部使用生成的素材,也就是原生生成,一种是在已经给定素材以后,从事所谓的素材采编。接下来我就先说一下采编方面的技巧。介绍完以后,再说一下纯原生的技巧。
首先在视频采编中,给定一篇文章,类似于文生图内部要做 Prompt 构造一样,我们要主动地去构造一个 query,它可以或许帮助我们去检索相关的素材。全体上简化可以用标签的技巧去做,但是更理想的是通过结构化的分析,生成组合的 有完整语义的 query 来保证效验。
构建完 Query 后,我们要做素材的扩充,主要是通过匹配的模型,用一个多域多属性的统一匹配,确保有一个非常好的效验。
当素材已经都选回来以后,要把它们放到合适的字幕位置上面。这里主要通过一些语义相关性的计算,计算字幕和素材的语义相关性,计算完以后,素材被放在合适的位置,保证了整个视频的流畅度。
我们也做了一些原生的视频生成。最早一开始展示的《启航星》的视频,是通过文生图的技巧来做的。给到一篇文章以后,我们通过文生图的技巧生成一些关键帧,再把这关键帧结合起来,生成一个视频。
更进一步,我们还可以做端到端的文生视频,不止真人图象,还可以把动态效验都做出来。这里是baidu自研的 VideoDream 模型。全体上来说,它跟文生图是比较像的,但相比之下它除了生成一张图象,还会生成多帧,形成动态的效验。这里是一些展示的效验。
这些技巧已经在百家号的一些场景上落地,可以或许助力创作者从事高效创作。它的生产效率会相比人工会至少有一个量级的提高,同时从用户的体验指标上和人工基本持平。
同时,我们也在融合一些新的技巧,包括数字人,完成数字人 TTV。我们还针对专门的场景,研发专题 TTV,比如大会报道,我们有一些线上直播流数据原始高清数据,可以使用这些专项数据来优化视频质量,支持一些行业级使用。
文生图、文章转视频都是基于语言来生成视觉实质的技巧。最后我们从事一些讨论跟展望。从使用的角度来看,AIGC 当下正在发生,它已经在大幅地提高实质创作的质量和效率。我们至少从文生图上观察到它提高了几个量级的效率。以前专业的画师,在一些复杂的画作上,可能必要积累好几年才能构建的素材,现在通过 AI 作画能短时间大量生成。
对于普通用户来说,它也会成为普惠的人类助手,让每个人将来都可以拥有很强的创作力。
最后是跨模态生成的一些现存的问题。首先是易用性问题。在使用中,用户必要输出文本描述。但事实上,输出文本描述是很复杂的。比如左侧的例子,必要这里密密麻麻的文字才能生成一个图片。再比如右边文心一格的例子上,通用必要这么一大串文字,不管是主体、实质、风格各方面都必要描述才能生成足够好。所以易用性是要进一步提高的。
另一个是可控性。现在模型虽然能生成很精致的图片,但是对于用户指定的数量、位置关系等,并不一定能准确生成。同时有些时候用户输出风格描述以后,因为风格模型会过度拟合到特定场景上面,导致图象结果不符合预期。比如这里,丰收的麦田上用加入了动漫风设定,就容易会出现人物,可见模型的可控性也是必要提高的。
最后总结一下,AIGC 时代已经到来了,baidu研发了文生图的技巧,发布了 AI 作画的创意产品文心一格。在文章转视频上,目前已经综合各种 AI 威力实现工业化的、可落地的文章自动转视频威力。
展望未来, AIGC 的技巧会不断地提高,打造出更强大的用户体验,它的使用场景也会越来越拓宽。最终 AIGC 会无处不在。相信这个过程内部也会产生一些新的职业,如 AI 绘画师、 AI 自媒体,带来更多的就业机会,对社会产生正面的影响。