AI 根据声音内容帮照片“对口型”,蚂蚁集团开源 EchoMimic 项目

蚂蚁集团 10 日开源了名为 EchoMimic 的新项目,其能够通过人像面部特征和音频来帮人物“对口型”,结合面部标志点和音频内容生成较为稳定、自然的视频。该项目具备较高的稳定性和自然度,通过融合音频和面部标志点(面部关键特征和结构,通常位于眼、鼻、嘴等位置)的特征,可生成更符合真实面部运动和表情变化的视频。其支持单独使用音频或面部标志点生成肖像视频,也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉,其支持多语言(包含中文普通话、英语)及多风格,也可应对唱歌等场景。 AI在线附相关链接:项目地址: G

蚂蚁集团 10 日开源了名为 EchoMimic 的新项目,其能够通过人像面部特征音频来帮人物“对口型”,结合面部标志点和音频内容生成较为稳定、自然的视频。

AI 根据声音内容帮照片“对口型”,蚂蚁集团开源 EchoMimic 项目

该项目具备较高的稳定性和自然度,通过融合音频和面部标志点(面部关键特征和结构,通常位于眼、鼻、嘴等位置)的特征,可生成更符合真实面部运动和表情变化的视频。

其支持单独使用音频或面部标志点生成肖像视频,也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉,其支持多语言(包含中文普通话、英语)及多风格,也可应对唱歌等场景。

AI在线附相关链接:

项目地址:https://badtobest.github.io/echomimic.html

Github:https://github.com/BadToBest/EchoMimic

相关资讯

快手可灵 AI 新增“对口型”功能:生成人物口型与上传音频同步

感谢快手旗下可灵 AI 官方宣布,新增对口型功能,并面向所有用户开放 API 服务。在可灵 AI 生成人物视频后,上传音频,即可让视频人物口型和音频同步。可灵 1.0 及 1.5 模型生成的视频,只要满足视频画面的人脸条件,均支持对口型(目前仅支持人物类角色(真实 / 3D / 2D)进行对口型,动物类角色对口型暂不支持)。AI在线获悉,可灵 AI 正式面向所有用户开放 API 服务,支持在平台自助购买 API 资源包。官方表示,API 的效果与平台效果完全一致,1.5 模型和运动笔刷目前暂不支持 API,会尽快迭

微软推出 VASA-1 AI 框架,可即时生成 512x512 40FPS 逼真对口型人像视频

据微软官方新闻稿,微软今天公布了一项图生视频的 VASA-1 框架,该 AI 框架只需使用一张真人肖像照片和一段个人语音音频,就能够生成精确逼真的对口型视频(生成念稿子的视频),据称在表情和头部动作方面特别自然。IT之家获悉,目前业界相关许多研究都集中在对口型上,而面部动态行为及头部运动情况通常被忽视,因此生成的面部也会显得僵硬、缺乏说服力且存在恐怖谷现象。而微软的 VASA-1 框架克服了以往面部生成技术的限制,研究人员利用了扩散 Transformer 模型,在整体面部动态和头部运动方面进行训练,该模型将所有可

氛围感拉满:微软新专利探索 Copilot AI 应用,匹配视频等生成音乐

科技媒体 Windows Report 昨日(10 月 4 日)发布博文,报道称微软公司获得了一项新的专利,构想 Copilot 在未来能辅助用户创建和视频、文本、PowerPoint 等匹配的音乐或者背景音乐。AI在线注:微软该专利名为《Artificial intelligence model for composing audio scores》,主要探讨了基于输入内容,来创建音乐的方法。该专利主要概述了以下步骤:收集数据:收集大量的训练数据,这些数据包括许多包含视频和音频组件的视听数据集。分析提取:分析数据