微软推出 VASA-1 AI 框架,可即时生成 512×512 40FPS 真切对口型人像视频

据微软官方新闻稿,微软今天公布了一项图生视频的 VASA-1 框架,该 AI 框架只需使用一张真人肖像照片和一段个人语音音频,就可能生成精确真切的对口型视频(生成念稿子的视频),据称在脸色和头部举措方面特别自然。IT之家获悉,目前业界相关许多研究都集中在对口型上,而脸部动向行动及头部静止情况通常被忽视,因此生成的脸部也会显得僵硬、缺乏说服力且存在恐怖谷现象。而微软的 VASA-1 框架克服了以往脸部生成技能的限制,研究人员行使了扩散 Transformer 模型,在整体脸部动向和头部静止方面进行训练,该模型将所有可

据微软官方新闻稿,微软今天公布了一项图生视频的 VASA-1 框架,该 AI 框架只需使用一张真人肖像照片和一段个人语音音频,就可能生成精确真切的对口型视频(生成念稿子的视频),据称在脸色和头部举措方面特别自然。

微软推出 VASA-1 AI 框架,可即时生成 512x512 40FPS 真切对口型人像视频

IT之家获悉,目前业界相关许多研究都集中在对口型上,而脸部动向行动及头部静止情况通常被忽视,因此生成的脸部也会显得僵硬、缺乏说服力且存在恐怖谷现象。

而微软的 VASA-1 框架克服了以往脸部生成技能的限制,研究人员行使了扩散 Transformer 模型,在整体脸部动向和头部静止方面进行训练,该模型将所有可能的脸部动向,包括嘴唇举措、脸色、眼睛注视和眨眼等行动均视为单一潜在变量(即一次生成整个具有高度细节的人脸),号称可能即时生成 512×512 分辨率 40 FPS 的视频。

微软推出 VASA-1 AI 框架,可即时生成 512x512 40FPS 真切对口型人像视频

IT之家同时注意到,微软还行使了 3D 技能辅助标记人脸脸部特征,并额外设计了损失函数,号称可能让 VASA-1 不仅可能生成高品质的脸部视频,还可能有效地捕捉和重现脸部 3D 结构。

给TA打赏
共{{data.count}}人
人已打赏
AI

GPT-4 化身黑客搞破坏,顺利率 87%!OpenAI 要求保密提醒词,网友复现 ing

2024-4-21 12:53:34

AI

海外写作平台 Medium 5 月起阻止颁布完整由 AI 生成的付费类文章

2024-4-21 19:57:25

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索