让蒙娜丽莎唱饶舌,微软发布 VASA-1 模型:图 + 音频可生成短视频

微软亚洲研究院(Microsoft Research Asia)近日发表论文,介绍了全新的 VASA-1 模型,用户只需要提供一张静态肖像图片和一段语音音频片段,该模型就能自动让图片中的人物自动说话。 VASA-1 特别有趣的地方在于,它能够模拟自然的面部表情、各种情绪和唇部同步,最重要的是几乎没有人工痕迹,如果不细看很难发现。 研究人员承认,与所有其他模型一样,该模型目前还无法妥善处理头发等非刚性元素,但整体效果要比其它同类模型要更为优秀。研究人员还表示 VASA-1 支持离线 batch 处理模式下,以 45

微软亚洲研究院(Microsoft Research Asia)近日发表论文,介绍了全新的 VASA-1 模型,用户只需要提供一张静态肖像图片和一段语音音频片段,该模型就能自动让图片中的人物自动说话。

VASA-1 特别有趣的地方在于,它能够模拟自然的面部表情、各种情绪和唇部同步,最重要的是几乎没有人工痕迹,如果不细看很难发现。

研究人员承认,与所有其他模型一样,该模型目前还无法妥善处理头发等非刚性元素,但整体效果要比其它同类模型要更为优秀。

让蒙娜丽莎唱饶舌,微软发布 VASA-1 模型:图 + 音频可生成短视频

研究人员还表示 VASA-1 支持离线 batch 处理模式下,以 45fps 生成分辨率为 512*512 的动态短视频,在线直播模式下可以达到 40 fps,且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处理。

IT之家附上参考地址

New VASA-1 model by Microsoft Research Asia

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

相关资讯

微软推出 VASA-1 AI 框架,可即时生成 512x512 40FPS 逼真对口型人像视频

据微软官方新闻稿,微软今天公布了一项图生视频的 VASA-1 框架,该 AI 框架只需使用一张真人肖像照片和一段个人语音音频,就能够生成精确逼真的对口型视频(生成念稿子的视频),据称在表情和头部动作方面特别自然。IT之家获悉,目前业界相关许多研究都集中在对口型上,而面部动态行为及头部运动情况通常被忽视,因此生成的面部也会显得僵硬、缺乏说服力且存在恐怖谷现象。而微软的 VASA-1 框架克服了以往面部生成技术的限制,研究人员利用了扩散 Transformer 模型,在整体面部动态和头部运动方面进行训练,该模型将所有可

微软 Microsoft 365 版 Copilot 4 月 1 日面向高校推出,拥有 A3 / A5 许可证可免费用

微软今日宣布将面向更多的教育用户提供 Copilot 及 AI 工具包,希望为教育工作者提供免费的 AI 功能以节省时间。微软表示,具有商业数据保护功能的 Microsoft Copilot 现已嵌入所有 Microsoft 365 教育产品中,包括零成本许可证,将提供给所有 18 岁及以上的教师和高校学生,并将在今年春季启动针对年轻学生的私人预览计划。微软还表示将为高校用户提供一项新优惠:专为保护学生设备而设计的 Microsoft Defender for Endpoint 将提供折扣价。从 2024 年 4

人人都是“美工”,微软上线贴纸制作器:轻松搞定邀请函、海报等

微软旗下 AI 图像编辑器 Microsoft Designer 掌握新技能,推出了名为“贴纸制作器”(Sticker Creator)的全新工具,让用户自由探索创建各种贴纸。和其它文生图工具一样,“贴纸制作器”也支持基于用户输入的文本内容,来生成符合描述的贴纸。这样没有美术功底的人也能为文档、邀请函、海报、演示文稿、社交媒体、消息应用程序等获得想要的效果,该服务使用 DALL-E 来处理您的提示并将其转化为图像。任意拥有微软账号的人都可以打开 Microsoft Designer 中试用贴纸创建器,IT之家附上链