让蒙娜丽莎唱饶舌,微软发布 VASA-1 模型:图 + 音频可生成短视频

微软亚洲研究院(Microsoft Research Asia)近日发表论文,介绍了全新的 VASA-1 模型,用户只需要提供一张静态肖像图片和一段语音音频片段,该模型就能主动让图片中的人物主动说话。 VASA-1 特别有趣的地方在于,它能够模拟自然的面部表情、各种情绪和唇部同步,最重要的是几乎没有人工痕迹,如果不细看很难发现。 研究职员承认,与所有其他模型一样,该模型目前还无法妥善处置头发等非刚性元素,但整体效果要比其它同类模型要更为优秀。研究职员还表示 VASA-1 支持离线 batch 处置形式下,以 45

微软亚洲研究院(Microsoft Research Asia)近日发表论文,介绍了全新的 VASA-1 模型,用户只需要提供一张静态肖像图片和一段语音音频片段,该模型就能主动让图片中的人物主动说话。

VASA-1 特别有趣的地方在于,它能够模拟自然的面部表情、各种情绪和唇部同步,最重要的是几乎没有人工痕迹,如果不细看很难发现。

研究职员承认,与所有其他模型一样,该模型目前还无法妥善处置头发等非刚性元素,但整体效果要比其它同类模型要更为优秀。

让蒙娜丽莎唱饶舌,微软发布 VASA-1 模型:图 + 音频可生成短视频

研究职员还表示 VASA-1 支持离线 batch 处置形式下,以 45fps 生成分辨率为 512*512 的动态短视频,在线直播形式下可以达到 40 fps,且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处置。

IT之家附上参考地址

New VASA-1 model by Microsoft Research Asia

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

给TA打赏
共{{data.count}}人
人已打赏
AI

Meta AI 全球市场扩张,并上线网页版 meta.ai

2024-4-19 9:15:51

AI

台积电:AI 服务器处理器需要快速增长,预计到 2028 年奉献 20% 营收

2024-4-19 14:30:28

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索