字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

本文作者来自字节跳动智能创作数字人团队，介绍了名为「INFP」的交互式人像生成技术。利用该技术生成的智能体能像真人一样在多轮对话中实现自由的听说行为以及无缝的状态切换。

在大语言模型和 AIGC 的热潮下，科研人员对构建「视觉对话智能体」（Visual Chat Agent）展现出极大兴趣。其中，可实时交互的人像生成技术（Audio-Driven Real-Time Interactive Head Generation）是实现链路中极为关键的一环。它确保了在与用户的多轮对话过程中，智能体形象能够像真人一样提供自然、逼真的行为和视觉反馈，令用户获得沉浸式的交互体验。字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

之前的人像生成 / 驱动技术大多面向的是对话场景中的「单一方向交互」，如：说话人像生成（Talking Head Generation）或倾听人像生成（Listening Head Generation），因此无法直接应用于智能体的构建。近期陆续有一些工作开始关注研究交互式的人像生成，但它们都需要显式地指定「说话」或「倾听」的状态，且无法像真人一样在多轮对话中实现自由的听说行为以及无缝的状态切换。

近日，字节跳动提出了一套面向二元对话场景的交互式人像生成技术 INFP，该方案仅需输入一段双轨对话音频（分别来自智能体本身和对话伙伴的说话内容），即可实时驱动单张肖像照片生成相应的对话视频，且能够在多轮对话中生成自然的人物行为和反馈，例如表情、眼神、口型、姿态变化以及流畅的说话 - 倾听状态切换。

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

论文链接：https://arxiv.org/pdf/2412.04037
项目网页：https://grisoon.github.io/INFP

技术方案

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

INFP 包含 2 个阶段：

1. Motion-Based Head Imitation：在第一阶段，模型从大量对话视频中学习如何提取对话时的交互和运动行为，包括非语言动作（non-verbal motion）和语言动作（verbal motion），并将其映射到运动隐空间（motion latent space）。映射后的运动编码（motion latent code）可以用来驱动肖像照片，生成相应的视频。一个好的运动隐空间应该具备高度的解耦性，即头部姿势、面部表情和情绪应该与外观完全解耦。为此，文章提出对输入图像进行面部结构离散化和面部像素遮罩处理。

2. Audio-Guided Motion Generation：在第二阶段，模型将双轨对话音频输入映射到第一阶段预训练的运动隐空间，以获得相应的运动潜码。该部分由一个交互运动引导模型（Interactive Motion Guider）和一个条件扩散模型（Conditional Ddiffusion Transformer）组成。前者将来自智能体及其对话伙伴的音频作为输入，从可学习的记忆库（Learnable Memory Bank）中检索语言和非语言动作，以构建交互式动作特征。后者利用交互式运动特征作为条件，与其他信号一起通过去噪生成运动潜码。

实验结果

在实验章节中，文中从多个方面详细对比了 INFP 和其它市面上 SOTA 方案，以此来证明该方法的有效性。

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

此外，文中页分别对比了 INFP 和 Talking Head Generation 以及 Listening Head Generation 方法，以此证明该方法在「单一交互」场景中的生成效果依然可以做到 SOTA。

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

效果展示

动作多样性效果展示非真人效果展示 即时交互 demo 效果展示

安全说明

此工作仅以学术研究为目的，会严格限制模型的对外开放和使用权限，防止未经授权的恶意利用。

团队介绍

字节跳动智能创作数字人团队，智能创作是字节跳动 AI & 多媒体技术团队，覆盖了计算机视觉、音视频编辑、特效处理等技术领域，借助公司丰富的业务场景、基础设施资源和技术协作氛围，实现了前沿算法 - 工程系统 - 产品全链路的闭环，旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。其中数字人方向专注于建设行业领先的数字人生成和驱动技术，丰富智能创作内容生态。

目前，智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

相关资讯

用RLHF 2%的算力让LLM停止有害输出，字节提出LLM遗忘学习

字节自研大模型，却因用ChatGPT被封号惹争议？官方回应了

刚刚，字节版GPTs「扣子」上线了