前言
我相信这是一篇针对大朋友、小朋友都通俗易懂的视频剧本构思到视频落地的全流程拆解教程。基于大语言模型和绘图模型的前提,有了一次和小伙伴们探索文生图到图生视频的创作实践。
废话不多说,直接上保姆级干货教程!保证你能够轻松学会!
学之前,快来看看我们制作的视频短片吧~
当视频在手机上无法加载,可前往PC查看。
一、前期准备
1. 确定主题
针对于现有的 AI 生成能力,央视推出了多组 AI 视频短片,为此我们也决定生成一个符合时代主旋律的 AI 小视频。经过脑暴阶段,有了一带一路背景下丝绸之路这个角度的创作故事。创作方向也可以借助大语言模型生成主题方向的灵感,下面提供部分列举方向可做参考:
2. 工具探索
通过对 AI 工具的了解和视频的构成,我们发现当下有许多能够进行视频生成的工具,于是进行了部分视频生成工具的测试。最终选择了大语言模型 chatgpt、kimi 进行剧本分镜设定,文生图 midjourney 生成视觉画面,图生视频选择即梦 dreamina 制作动态画面,suno 音乐编曲,ondoku 主角台词配音,视频剪辑使用的是剪映。视频中的小部分的音效也在网上进行了无版权下载,当然剪映里也有大量的音效可以使用。
3. 风格与时长
时长确立:制作一个 1 分钟左右的 AI 生成画面,加上闭幕不超过 2 分钟。
风格确立:大致定义为中国风,当然即便风格定义成中国风也有不同的风格展示,我们采用同一提示词,进行了风格测试对比。
这里我们使用了 Fanbook 中的 niji6 模型以及 –sref 指令,最后加上每张图片的提示词,完成了整个视频风格保持一致性的确定。(当然 风格一致性……等等诸多详细教程,后续…..赶紧小关小注)尺寸选择 16:9。
4. 剧本分镜设定
根据丝绸之路的古风主题,风格和时长的确定。接下来就需要设定故事主线和镜头。
有了以上故事剧本及相关资料的基础,就可以进一步扩充每一个画面啦。我们可以参考分镜头的基本格式要求,按照场景、地点、镜号、画面描述、台词、音效等维度进行填充。这里提一个小建议,画面数量与台词长短密切相关,比如,主角一句话有 6 个字,按照 3~4 字/秒核算,需要有 2 秒的时长,而通常 1 个画面可以生成 2~3 秒的短视频,因此,6 个字的台词长度,使用一个画面便可以满足。换句话说,当台词越长,所需的画面量越多,生图的工作量也越大。所以我们要尽可能精简人物的对话,提炼重点。
当然,当你对某一句台词,没有足够的画面灵感,你还可以借助语言大模型来帮助你。比如,在这次的分镜头创作过程中,我们便与 Kimi 进入了深入的交流。你可以要求 Kimi 帮你写好画面描述(如下左图)。你还可以直接将台词抛给 Kimi,让他帮你写好画面描述,甚至加上对音效的需求(如下右图)。
大模型可以为你提供足够多的灵感,你可以多提问,多尝试。当然,最终选取哪个画面,如何平衡画面之间的联系,这都需要你进一步思考。就在以上的 AI 辅助下,我们的分镜头剧本就完成啦。(如下图)
二、AIGC 视觉画面生成阶段
1. 主角人物生成
剧本中的两位主人公,共 3 个形象,分别是年轻船员:开朗积极、充满好奇;老船长:经验丰富、坚韧不拔,以及老船长年轻时候的形象。通过性格特征和时代背景,描绘人物的提示词、上传角色参考图–cref,最后将角色背景扣除以便于进行角色加背景的融合生成时进行垫图操作。以老船长年轻形象为例,生成了全身、半身、侧身等多角度人物图。
2. 场景画面生成
根据剧本创作,场景主要概括为三个场景部分,分别是海上、沙漠、市集。提示词从剧本中的画面描述进行提取。生成过程均采用文生图模式,画面风格选择前期准备好的风格图进行垫图。
3. 带主角人物的画面生成
上传角色图、场景背景进行参考生成,使得人物和场景的融合度更高。
通过以上阶段,我们的台词、剧本、风格、人物形象、画面场景就都确立好啦。