CVPR 2025 高分论文 | 单图秒变3D真人！IDOL技术开启数字分身新时代

2025-03-22 08:59

在虚拟现实、游戏以及 3D 内容创作领域，从单张图像重建高保真且可动画的全身 3D 人体一直是一个极具挑战性的问题：人体多样性、姿势复杂性、数据稀缺性等等。终于，近期由来自南京大学、中科院、清华大学、腾讯等机构的联合研究团队，提出一个名为 IDOL 的全新解决方案，高分拿下 2025 CVPR。项目主页目前访问次数已超 2500 次，且是可商用的 MIT 开源协议，备受业界瞩目。

在虚拟现实、游戏以及 3D 内容创作领域，从单张图像重建高保真且可动画的全身 3D 人体一直是一个极具挑战性的问题：人体多样性、姿势复杂性、数据稀缺性等等。

终于，近期由来自南京大学、中科院、清华大学、腾讯等机构的联合研究团队，提出一个名为 IDOL 的全新解决方案，高分拿下 2025 CVPR。项目主页目前访问次数已超 2500+ 次，且是可商用的 MIT 开源协议，备受业界瞩目。

图 1 IDOL 速览

为什么 IDOL 这么受欢迎？因为它为单图 3D 人体重建问题提供了一种全新的高效解决方案。该模型不仅能够在单 GPU 上以秒级速度生成高分辨率的逼真 3D 人体，还具备实时渲染、直接动画化与编辑的能力，为 VR/AR、虚拟数字人以及相关领域的应用提供了全新思路。

论文标题：IDOL: Instant Photorealistic 3D Human Creation from a Single Image
论文地址：https://arxiv.org/pdf/2412.14963
项目主页：https://yiyuzhuang.github.io/IDOL
该工作已开源：https://github.com/yiyuzhuang/IDOL（开源协议为 MIT，可商用）

IDOL demo video

单图重建人体，为什么这么难？

从单幅图像重建高质量且可驱动的人体模型是一项极具挑战性的任务。这一挑战主要源于人体姿态和衣物拓扑外观的多样性，以及缺乏大规模高质量的训练数据。

当前解决这一问题的方案通常面临以下困难：

优化时间长：基于扩散模型的优化过程耗时较长，通常需要数分钟甚至数小时。
依赖准确的 SMPL 参数估计：采用参数化人体模型作为拓扑先验，依赖精确的 SMPL-X 参数估计，且迭代优化时间较长。
泛化性不足：处理大姿态、大侧面视角以及宽松衣物等挑战性样本时，泛化能力不足。
缺乏真实感：重建结果常常出现卡通化或过饱和的现象，且对不可见区域的补充往往不够自然。
动画化困难：许多重建方法未充分考虑后续的驱动需求，需额外的骨骼绑定（rigging）处理。且表达方式的限制使其难以泛化到新姿态。
编辑能力受限：生成的 3D 模型往往难以直接进行外观修改，需要额外的 UV 展开等处理。

IDOL 为什么有效？

作者提出了一种高效且可扩展的重建框架，通过训练一个简单的前馈模型（IDOL），实现了即时且可泛化的真实感 3D 人体重建。

大规模数据集 HuGe100K

作者通过微调构建了一个能够生成高视点一致性的多视点图像生成网络（MVChamp），并创建了 HuGe100K 数据集——一个以人为中心的大规模生成数据集。

该数据集包含超过 240 万张高分辨率（896×640）的人体多视图图像，共计 100K 个（10 万组）样本。每组图像通过一个可控姿势的图像到多视角生成模型生成，共包含 24 个视角帧。

数据集涵盖了多样化的个体特征（包括不同年龄、性别、体型、服饰和场景）为模型训练提供了充足的样本，从而显著提升了模型在各种复杂条件下的重建能力。

图 2 构建 HuGe100K 数据集的路线图

前馈式 Transformer 重建模型 IDOL

基于此数据集，我们训练了一个预训练的编码器和一个基于 Transformer 的骨干网络，能够在 1 秒内实现快速重建。

该模型能够直接从单张输入图像中预测出人体在统一空间下的 3D 高斯表示。通过将人体姿势、体型、服装几何结构与纹理进行解耦，模型不仅能生成高保真 3D 人体，还能实现无需后处理的直接动画化，为后续的形状与纹理编辑提供了便利。

图 3 IDOL 的技术路线图

方法流程与技术细节，如图 3：

1. 数据集构建流程

文本提示与图像生成：利用先进的文本到图像生成模型（如 Flux），设计描述性提示语，确保在「区域、服饰、体型、年龄、性别」等维度上实现均衡采样，从而生成 10 万张高质量全身人体图像（经过人工筛选，保留 90K 张合成图像，并融合 10K 张真实图像）。
多视角图像生成：基于生成的全身图像，通过训练多视角视频生成模型（MVChamp），再结合 SMPL-X 人体模板进行姿态拟合，获得 24 个均匀分布的视角图像，确保数据在 3D 一致性上的准确性。

2. 模型架构

高分辨率编码器：采用预训练的人体基础模型 Sapiens，对 1024×1024 高分辨率图像进行特征提取，保留图像中的细粒度信息。
UV 对齐 Transformer：通过学习的 UV Token 与图像特征进行融合，将不规则的输入图像映射到规则的 2D UV 空间中，此空间由 SMPL-X 模型定义，能够提供丰富的几何和语义先验。
UV 解码器：将融合后的特征重构成 3D 高斯属性图（包括位置偏移、旋转、尺度、颜色及不透明度），从而得到用于重建人体的高斯表示。
动画与渲染：利用线性混合蒙皮（LBS）技术，根据预定义的关节运动，对高斯表示进行前向变换，实现人体在不同姿态下的动画化。

3. 训练目标与损失函数

模型采用多视角图像监督，利用均方误差（MSE）和基于 VGG 网络的感知损失共同优化。这样的组合既保证了重建图像在像素级别的准确性，又能提高整体的感知质量，使生成的人体纹理更为自然、细腻。

本方法的优势：高效与实时性

IDOL 模型经过优化后，在单个 GPU 上仅需不到 1 秒即可重建 1K 分辨率的逼真 3D 人体，极大地提升了实用性和应用场景的广泛性。该方法具有以下优势：

1 秒内完成高质量 3D 角色重建；
统一的 UV 表达与大规模数据集支撑，泛化性强；
可驱动性，无需额外绑骨；
支持形变与纹理编辑；
基于 3DGS 的表达，支持实时渲染。

定量看 IDOL 怎么样？

IDOL 与其他方法的对比

IDOL 相较传统 3D 建模方法实现多重突破：自研 10 万级多视角数据集 HuGe100K（传统方法仅依赖少量扫描数据），显著提升模型泛化能力；

创新性融合 SMPL-X 人体拓扑与 UV 展开的高斯溅射属性（替代传统体素/隐式场），实现解剖学精准建模；

1 秒级实时重建（传统需数小时）且支持线性蒙皮自动驱动动画（无需手动 RIGGING），更具备形变、换装等灵活编辑特性。

表 1 IDOL 与传统方法对比一览

HuGe100K 与其他数据集的对比

通过对模型中各关键组件（如 Sapiens 编码器、HuGe100K 数据集）的逐一剔除测试，验证了各模块对整体性能的重要贡献，证明了数据集规模与高分辨率特征提取对高质量重建不可或缺。

与现有数据集相比，HUGE100K 以 100K 个体数量（远超同类最高 4500 个 ID）和超 2.4M 帧数的规模，成为目前全球最大、多样性最丰富的 3D 人体数据集。

多样性突破：覆盖 10 万级体型与姿态，解决模型泛化瓶颈；
动态建模：百万级多视角帧包含多样化姿态；
准确动作标注：集成准确的 SMPL-X 参数，无缝适配主流 3D 工具链。为单图重建、数字人驱动提供工业化级数据引擎，填补了高多样性、大规模动态人体数据的空白。

表 2 HuGe 100K 数据集与其他数据集对比

重建质量对比

IDOL 在与现有方法（如基于迭代优化的 GTA、SIFU 等）对比中，IDOL 在 MSE、PSNR 和 LPIPS 等指标上均取得显著优势，证明了其在重建精度和细节保留上的优越性。

表 3 对比实验及消融实验指标

实验验证了 IDOL 在不同场景和姿态下均能生成细节丰富、纹理一致的 3D 人体。

无论是复杂服饰、特殊角度拍摄，还是不同体型的人体重建，IDOL 均表现出极好的泛化能力和鲁棒性。

图 4 IDOL 与其他方法效果对比

IDOL 未来能做什么？

IDOL 方法不仅在技术上取得了显著突破，其应用前景也十分广阔。其开源协议 MIT 自由可商用，欢迎大家随意搭建到自己的应用中。

利用 IDOL 生成的 3D 人体，用户可以直接进行形状和纹理编辑，例如调整服装图案或改变体型参数。同时，结合动画技术，该模型还可以实现视频中的身份替换等应用，展现出极高的实用价值。

虚拟现实与增强现实：

即时生成真实感 3D 人体模型为 VR/AR 应用提供了新的交互方式，可以实现实时虚拟形象替换、数字孪生等创新应用场景。

数字娱乐与游戏开发：

通过单图重建，游戏开发者可以快速生成高质量角色模型，大幅降低建模成本，加速内容创作流程，从而推动数字娱乐产业的发展。

虚拟试衣与时尚产业：

在电商和虚拟试衣领域，利用 IDOL 技术可以实现用户上传单张照片后即刻生成 3D 人体模型，为消费者提供个性化试衣、定制服务，提升用户体验。

这篇论文通过创新性的单图重建思路，实现了从单张 2D 图像瞬时生成高质量 3D 人体模型的目标。其核心在于将视频模型先验、人体先验、隐式表示与可微渲染技术紧密结合，构建了一个端到端可微分的优化框架。重构了传统单目人体重建的管线（图片→3D→绑骨→驱动），极大的提高了泛化性与实用性。

实验结果证明，IDOL 在重建精度、纹理细节和实时性方面均表现出色，展现了广泛的应用前景。

未来，随着技术的不断演进和数据规模的进一步扩大，该方法有望在 VR/AR、游戏、时尚等领域引领一场 3D 数字内容创作的革新，为实际应用提供更加高效、真实的解决方案。

CVPR 2025｜北大开源多模态驱动的定制化漫画生成框架DiffSensei，还有4.3万页漫画数据集

随着生成式人工智能技术（AIGC）的突破，文本到图像模型在故事可视化领域展现出巨大潜力，但在多角色场景中仍面临角色一致性差、布局控制难、动态叙事不足等挑战。为此，北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei，首个结合多模态大语言模型（MLLM）与扩散模型的定制化漫画生成框架。论文地址：仓库： - - ，实现了对多角色外观、表情、动作的精确控制，并支持对话布局的灵活编码。

3/7/2025 12:48:00 PM

机器之心

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

何恺明又双叒叕发新作了，这次还是与图灵奖得主 Yann LeCun 合作。这项研究的主题是没有归一化层的 Transformer（Transformers without Normalization），并已被 CVPR 2025 会议接收。 Meta FAIR 研究科学家刘壮的推文过去十年，归一化层已经巩固了其作为现代神经网络最基本组件之一的地位。

3/14/2025 3:54:00 PM

机器之心

CVPR 2025 | Qwen让AI「看见」三维世界，SeeGround实现零样本开放词汇3D视觉定位

3D 视觉定位（3D Visual Grounding, 3DVG）是智能体理解和交互三维世界的重要任务，旨在让 AI 根据自然语言描述在 3D 场景中找到指定物体。具体而言，给定一个 3D 场景和一段文本描述，模型需要准确预测目标物体的 3D 位置，并以 3D 包围框的形式输出。相比于传统的目标检测任务，3DVG 需要同时理解文本、视觉和空间信息，挑战性更高。

3/24/2025 1:06:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

CVPR 2025 高分论文 | 单图秒变3D真人！IDOL技术开启数字分身新时代

相关资讯

CVPR 2025｜北大开源多模态驱动的定制化漫画生成框架DiffSensei，还有4.3万页漫画数据集

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

CVPR 2025 | Qwen让AI「看见」三维世界，SeeGround实现零样本开放词汇3D视觉定位