字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

本文作者来自字节跳动智能创作数字人团队,介绍了名为「INFP」的交互式人像生成技术。利用该技术生成的智能体能像真人一样在多轮对话中实现自由的听说行为以及无缝的状态切换。

在大语言模型和 AIGC 的热潮下,科研人员对构建「视觉对话智能体」(Visual Chat Agent)展现出极大兴趣。其中,可实时交互的人像生成技术(Audio-Driven Real-Time Interactive Head Generation)是实现链路中极为关键的一环。它确保了在与用户的多轮对话过程中,智能体形象能够像真人一样提供自然、逼真的行为和视觉反馈,令用户获得沉浸式的交互体验。字节整新活!照片+音频让蒙娜丽莎秒变播客主理人字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

之前的人像生成 / 驱动技术大多面向的是对话场景中的「单一方向交互」,如:说话人像生成(Talking Head Generation)或倾听人像生成(Listening Head Generation),因此无法直接应用于智能体的构建。近期陆续有一些工作开始关注研究交互式的人像生成,但它们都需要显式地指定「说话」或「倾听」的状态,且无法像真人一样在多轮对话中实现自由的听说行为以及无缝的状态切换。

近日,字节跳动提出了一套面向二元对话场景的交互式人像生成技术 INFP,该方案仅需输入一段双轨对话音频(分别来自智能体本身和对话伙伴的说话内容),即可实时驱动单张肖像照片生成相应的对话视频,且能够在多轮对话中生成自然的人物行为和反馈,例如表情、眼神、口型、姿态变化以及流畅的说话 - 倾听状态切换。

字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

  • 论文链接:https://arxiv.org/pdf/2412.04037

  • 项目网页:https://grisoon.github.io/INFP

技术方案

字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

INFP 包含 2 个阶段:

1. Motion-Based Head Imitation:在第一阶段,模型从大量对话视频中学习如何提取对话时的交互和运动行为,包括非语言动作(non-verbal motion)和语言动作(verbal motion),并将其映射到运动隐空间(motion latent space)。映射后的运动编码(motion latent code)可以用来驱动肖像照片,生成相应的视频。一个好的运动隐空间应该具备高度的解耦性,即头部姿势、面部表情和情绪应该与外观完全解耦。为此,文章提出对输入图像进行面部结构离散化和面部像素遮罩处理。

2. Audio-Guided Motion Generation:在第二阶段,模型将双轨对话音频输入映射到第一阶段预训练的运动隐空间,以获得相应的运动潜码。该部分由一个交互运动引导模型(Interactive Motion Guider)和一个条件扩散模型(Conditional Ddiffusion Transformer)组成。前者将来自智能体及其对话伙伴的音频作为输入,从可学习的记忆库(Learnable Memory Bank)中检索语言和非语言动作,以构建交互式动作特征。后者利用交互式运动特征作为条件,与其他信号一起通过去噪生成运动潜码。

实验结果

在实验章节中,文中从多个方面详细对比了 INFP 和其它市面上 SOTA 方案,以此来证明该方法的有效性。

字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

此外,文中页分别对比了 INFP 和 Talking Head Generation 以及 Listening Head Generation 方法,以此证明该方法在「单一交互」场景中的生成效果依然可以做到 SOTA。

字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

效果展示

动作多样性效果展示字节整新活!照片+音频让蒙娜丽莎秒变播客主理人字节整新活!照片+音频让蒙娜丽莎秒变播客主理人字节整新活!照片+音频让蒙娜丽莎秒变播客主理人非真人效果展示 字节整新活!照片+音频让蒙娜丽莎秒变播客主理人字节整新活!照片+音频让蒙娜丽莎秒变播客主理人即时交互 demo 效果展示 字节整新活!照片+音频让蒙娜丽莎秒变播客主理人字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

安全说明

此工作仅以学术研究为目的,会严格限制模型的对外开放和使用权限,防止未经授权的恶意利用。

团队介绍

字节跳动智能创作数字人团队,智能创作是字节跳动 AI & 多媒体技术团队,覆盖了计算机视觉、音视频编辑、特效处理等技术领域,借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法 - 工程系统 - 产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。其中数字人方向专注于建设行业领先的数字人生成和驱动技术,丰富智能创作内容生态。

目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

相关资讯

用RLHF 2%的算力让LLM停止有害输出,字节提出LLM遗忘学习

如何让 LLM “忘记” 学到的有害内容?随着大型语言模型(LLM)的发展,从业者面临更多挑战。如何避免 LLM 产生有害回复?如何快速删除训练数据中的版权保护内容?如何减少 LLM 幻觉(hallucinations,即错误事实)? 如何在数据政策更改后快速迭代 LLM?这些问题在人工智能法律和道德的合规要求日益成熟的大趋势下,对于 LLM 的安全可信部署至关重要。目前业界的主流解决方案为 LLM 对齐 (alignment),即通过建立对比数据(正样本和负样本)用强化学习的方式来对 LLM 进行微调 (Fine

字节自研大模型,却因用ChatGPT被封号惹争议?官方回应了

没想到,字节的大模型项目是被这样曝光的。上周末,有外媒报道称,字节跳动在使用 OpenAI 技术开发自有大语言模型时,因违反 OpenAI 服务条款从而遭账号禁用。据 The Verge 报道,字节跳动内部正在研发的大语言模型项目名为「种子计划」(Project Seed)。由于训练大模型需要大量问答知识,该项目被曝出一直在秘密使用 OpenAI 的技术来充实数据集。在大模型领域,利用其他 AI 生成的内容用于训练的「取巧」行为虽然并不少见,但经常会被认为是一种超出底线的行为。在 ChatGPT 上,滥用 AI 生

刚刚,字节版GPTs「扣子」上线了

大玩家终于正式下场。在持续一年的大模型热潮之后,「智能体」成为了科技公司们新的押注方向之一。近日,字节跳动正式推出「Coze 扣子」AI Bot 开发平台。任何用户都可以快速、低门槛地搭建自己的 Chatbot,且平台支持用户将其一键发布到飞书、微信公众号、豆包等渠道。链接:,除了可以创建自己的 Chatbot,Coze 官方还提供了 Bots 商店和插件。如以下按照热度精选的 Bots,包含娱乐、创意、学习等各类产品,甚至我们注意到还有「马歇尔音箱粉丝」这个选项。机器之心挑选了一些已有的 Bot 试了试,看看上手