EchoMimic V2:AI 数字人的新里程碑!首次实现身体动作口型全同步!

EchoMimic V2是阿里达摩院开源的一款基于音频驱动的肖像动画生成工具。 这一工具不仅能让虚拟形象开口说话,实现口型同步,还能在音频驱动下添加头部和身体动作,将数字形象的表现力提升到一个全新的高度。 如果你对AI数字人、AI配音、AI动画等制作感兴趣,那么EchoMimic V2绝对是一个不容错过的工具!

EchoMimic V2是阿里达摩院开源的一款基于音频驱动的肖像动画生成工具。

EchoMimic V2:AI 数字人的新里程碑!首次实现身体动作口型全同步!

这一工具不仅能让虚拟形象开口说话,实现口型同步,还能在音频驱动下添加头部和身体动作,将数字形象的表现力提升到一个全新的高度。

如果你对AI数字人、AI配音、AI动画等制作感兴趣,那么EchoMimic V2绝对是一个不容错过的工具!

EchoMimic V2:AI 数字人的新里程碑!首次实现身体动作口型全同步!

主要特点

(1) 音频驱动的半身人物动画

  • 支持通过音频驱动生成逼真的半身人物动画效果,适用于多种应用场景,如数字人直播、虚拟主播、视频编辑、AI配音等。
  • 实现音频驱动的人物说话、表情和肢体动作的协调一致。

(2) 引人注目的动作表现力

通过新颖的音频姿势动态协调策略,包括姿势采样和音频扩散,增强半身细节、面部和手势表现力。

(3) 简化的生成流程:

减少条件冗余,简化生成流程,提高模型的实用性和灵活性。

实现策略

(1) Audio-Pose Dynamic Harmonization策略:

  • Pose Sampling:通过姿态采样技术,增强半身细节和面部及手势的表现力。
  • Audio Diffusion:利用音频扩散技术,进一步提升动画的自然性和连贯性。

(2) Head Partial Attention:

为了弥补半身数据的稀缺,使用头部部分注意力机制,将头像数据无缝集成到训练框架中。在推理阶段,这一部分可以被省略,从而提供一个“免费午餐”给动画生成。

(3) Phase-specific Denoising Loss:

设计了特定阶段的去噪损失函数,分别指导动画在不同阶段的运动、细节和低层次质量。

核心亮点

(1) 数字人全方位进化

相比 V1 仅支持数字人,V2 将动画范围扩展到自定义人物,提供从头部到身体的完整动画表现:

  • 表情与嘴型同步:输入一段音频,即可让虚拟角色匹配语音内容精准“开口说话”。通过音频驱动,实现口型与语音内容的高度同步,使虚拟角色的对话更加自然和真实。
  • 头部与手势动作:通过参考手势视频生成连贯自然的动作效果。不仅限于面部表情,还包括头部和手势动作,打造更具沉浸感的数字人。动作流畅、自然,增强了虚拟角色的表现力和互动性。

(2) 简单易用

只需提供以下三项内容,即可轻松生成高质量动画:

  • 参考图像:用户上传任意照片作为虚拟角色的基础。参考图像可以是任意人物的照片,系统会根据该图像生成相应的虚拟角色。
  • 音频剪辑:用于驱动嘴型和表情动画。输入的音频内容将直接影响虚拟角色的口型和表情,确保动画与语音内容的高度一致。
  • 手势视频:为动画添加丰富的身体动作与动态细节。手势视频可以是任何包含手势动作的视频片段,系统会参考这些动作生成自然的身体动作。

快速上手

(1) 硬件要求

  • 英伟达显卡:建议使用16GB显存,较小的显卡也能运行,但是性能会有所下降。
  • Python版本:需要Python 3.10及以上版本。

(2) 部署步骤

① 下载项目包:

  git clone https://github.com/antgroup/echomimic_v2
  cd echomimic_v2

② 设置python环境

  • 测试系统环境:CentOS 7.2 / Ubuntu 22.04
  • 测试GPU:A100(80G) / RTX4090D (24G) / V100(16G)
  • 测试Python版本:3.8 / 3.10 / 3.11

创建conda环境(推荐)

conda create -n echomimic python=3.10
conda activate echomimic

③ 安装依赖包

pip install pip -U
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124
pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu124
pip install -r requirements.txt
pip install --no-deps facenet_pytorch==2.6.0

 ④下载和配置ffmpeg-static

wget https://johnvansickle.com/ffmpeg/releases/ffmpeg-release-64bit-static.tar.xz
tar -xvf ffmpeg-release-64bit-static.tar.xz
export FFMPEG_PATH=$(pwd)/ffmpeg-4.4-amd64-static

⑤ 下载预训练权重模型

git lfs install
git clone https://huggingface.co/BadToBest/EchoMimicV2 pretrained_weights

预训练权重目录结构

./pretrained_weights/
├── denoising_unet.pth
├── reference_unet.pth
├── motion_module.pth
├── pose_encoder.pth
├── sd-vae-ft-mse
│   └── ...
├── sd-image-variations-diffusers
│   └── ...
└── audio_processor
    └── tiny.pt

⑥ 启动Gradio界面

python app.py

运行上述命令后,会启动一个Gradio界面。

  • 在Gradio界面上,可以上传一张参考图像(你自己的头像或任何人物照片)。
  • 上传一段音频剪辑,EchoMimic V2会根据音频制作出相应的口型同步动画。
  • 上传一段手势视频,系统会生成与音频相匹配的身体动作。
  • 系统将根据提供的参考图像、音频剪辑和手势视频生成完整的动画视频。

(3) 附录

  • GitHub仓库:https://github.com/antgroup/echomimic_v2
  • 在线Demo:https://huggingface.co/spaces/fffiloni/echomimic-v2

实例效果

EchoMimic V2:AI 数字人的新里程碑!首次实现身体动作口型全同步!

相关资讯

阿里出品!用一篇文章帮你了解AI数字人行业

人工智能(AI)技术的进步不仅改变了我们生活的方方面面,还在各行各业中展现出了巨大的潜力。AI 数字人,作为人工智能技术的一个重要分支,正在逐渐成为众多行业关注的焦点。这些虚拟的数字角色不仅具有逼真的外观和行为,还能够以超乎想象的方式与人类交互,从而提供全新的服务体验和业务机会。本文整理了 AI 数字人相关的基础概念、趋势报告、热点案例、AI 数字人平台和开源项目,以及作为设计师我们能用这些 AI 能力产出哪些有意思的工作。 :一、AI 数字人基础概念 1. 什么是 AI 数字人? "数字人"是指利用先进的计算机图

5000字爆肝测评!五月 AI 资讯及实用测评合集

前言 想不想了解近期 AI 圈又发生了哪些劲爆大事件?赶紧来看这篇文章 get 第一手 AIGC 资讯和深度测评——没错,我们的AIGC 30天测评又和大家见面了。 如今各类 AIGC 工具平台百花齐放,我们的测评致力于持续追踪最新的 AI 技术进展,将 AI 圈内发生的重大事件与工具进行深度实测并汇总成文,定期发布带给同学们,希望可以帮助大家快速了解最新的 AIGC 趋势,并可以及时地将这些 AI 工具结合到工作、学习与生活中,运用 AIGC 将自己的生活变得更加丰富多彩! 此前,我们已经发布了第一期测评,如有需

简化芯片设计传统,AI训练的新型算法正改变芯片研发范式

编辑丨&自1971年第一个商用微处理器的草图面世以来,芯片设计已经取得了长足的进步。 但是,随着芯片变得越来越复杂,设计人员必须解决的问题也越来越复杂。 而我们目前的工具并不总是能胜任这项任务。