据微软官方新闻稿,微软今天公布了一项图生视频的 VASA-1 框架,该 AI 框架只需使用一张真人肖像照片和一段个人语音音频,就可能生成精确真切的对口型视频(生成念稿子的视频),据称在脸色和头部举措方面特别自然。IT之家获悉,目前业界相关许多研究都集中在对口型上,而脸部动向行动及头部静止情况通常被忽视,因此生成的脸部也会显得僵硬、缺乏说服力且存在恐怖谷现象。而微软的 VASA-1 框架克服了以往脸部生成技能的限制,研究人员行使了扩散 Transformer 模型,在整体脸部动向和头部静止方面进行训练,该模型将所有可
据微软官方新闻稿,微软今天公布了一项图生视频的 VASA-1 框架,该 AI 框架只需使用一张真人肖像照片和一段个人语音音频,就可能生成精确真切的对口型视频(生成念稿子的视频),据称在脸色和头部举措方面特别自然。
IT之家获悉,目前业界相关许多研究都集中在对口型上,而脸部动向行动及头部静止情况通常被忽视,因此生成的脸部也会显得僵硬、缺乏说服力且存在恐怖谷现象。
而微软的 VASA-1 框架克服了以往脸部生成技能的限制,研究人员行使了扩散 Transformer 模型,在整体脸部动向和头部静止方面进行训练,该模型将所有可能的脸部动向,包括嘴唇举措、脸色、眼睛注视和眨眼等行动均视为单一潜在变量(即一次生成整个具有高度细节的人脸),号称可能即时生成 512×512 分辨率 40 FPS 的视频。
IT之家同时注意到,微软还行使了 3D 技能辅助标记人脸脸部特征,并额外设计了损失函数,号称可能让 VASA-1 不仅可能生成高品质的脸部视频,还可能有效地捕捉和重现脸部 3D 结构。