谷歌推出多模态 VLOGGER AI:让静态肖像图动起来“说话”

谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频实质,该模型可以让这些人物“动起来”,富有面部心情地朗诵音频实质。VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成差别种族、差别年龄、差别穿着、差别姿势的肖像影片。研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个

谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频实质,该模型可以让这些人物“动起来”,富有面部心情地朗诵音频实质。

谷歌推出多模态 VLOGGER AI:让静态肖像图动起来“说话”

VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成差别种族、差别年龄、差别穿着、差别姿势的肖像影片。

谷歌推出多模态 VLOGGER AI:让静态肖像图动起来“说话”

研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或差别的主体身份),这些对于正确合成交换的人类至关重要”。

Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步,之后 AI 就可以通过语音、手势和眼神交换以自然的方式与人类互动。

VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等,也可剪辑既有的影片,如果对影片中的心情不满意就能加以调整。

IT之家附上论文参考

VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

给TA打赏
共{{data.count}}人
人已打赏
AI

偶像与英伟达竞争,推出全新混同 AI 解决方案

2024-3-19 10:04:46

AI

开发者再分享 OpenAI Sora 生成的短视频:树叶大象、彩虹瀑布等

2024-3-19 11:52:53

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索