单张照片生成3D头部模型！Adobe提出FaceLift，从单一人脸图像重建360度头部模型

2025-01-27 09:32

本文经AIGC Studio公众号授权转载，转载请联系出处。 FaceLift是Adobe和加州大学默塞德分校推出的单图像到3D头部模型的转换技术,能从单一的人脸图像中重建出360度的头部模型。 FaceLift基于两阶段的流程实现:基于扩散的多视图生成模型从单张人脸图像生成一致的侧面和背面视图;生成的视图被输入到GS-LRM重建器中,产出详细的3D高斯表示。

本文经AIGC Studio公众号授权转载，转载请联系出处。

FaceLift是Adobe和加州大学默塞德分校推出的单图像到3D头部模型的转换技术,能从单一的人脸图像中重建出360度的头部模型。FaceLift基于两阶段的流程实现:基于扩散的多视图生成模型从单张人脸图像生成一致的侧面和背面视图;生成的视图被输入到GS-LRM重建器中,产出详细的3D高斯表示。FaceLift能精确保持个体的身份特征,生成具有精细几何和纹理细节的3D头部模型。FaceLift支持视频输入,实现4D新视图合成,能与2D面部重动画技术无缝集成,实现3D面部动画。

unsetunset相关链接unsetunset

主页: https://www.wlyu.me/FaceLift
GitHub: https://github.com/weijielyu/FaceLift
论文: https://arxiv.org/pdf/2412.17812

unsetunset论文介绍unsetunset

FaceLift是一种新颖的前馈方法，可从单张图像快速、高质量地重建 360 度头部。流程首先采用多视图潜在扩散模型，该模型可从单个面部输入生成一致的头部侧面和背面视图。然后，这些生成的视图作为 GS-LRM 重建器的输入，GS-LRM 重建器使用高斯 Splats 生成全面的 3D 表示。为了训练系统，使用了合成的 3D 人体头部资产开发了一个多视图渲染数据集。基于扩散的多视图生成器专门在合成头部图像上进行训练，而 GS-LRM 重建器在 Objaverse 上进行初始训练，然后在合成头部数据上进行微调。FaceLift擅长在重建过程中保留身份和维持视图一致性。尽管仅在合成数据上进行训练，但我们的方法仍表现出对真实世界图像的显著泛化能力。通过大量的定性和定量评估表明FaceLift在 3D 头部重建方面的表现优于最先进的方法，凸显了其实用性和在真实图像上的稳健性能。除了单幅图像重建外，FaceLift还支持视频输入以进行 4D 新颖视图合成，并与 2D 动画技术无缝集成以实现 3D 面部动画。

unsetunset方法unsetunset

FaceLift概述。 给定一张人脸图像作为输入，我们训练一个图像调节的多视图扩散模型来生成覆盖整个头部的全新视图。通过利用预先训练的权重和高质量的合成数据，我们的多视图潜在扩散模型可以以高保真度和多视图一致性幻化出人头的未见视图。然后，我们对 GS-LRM 进行微调，它将多视图图像及其相机姿势作为输入，并生成 3D 高斯图块来表示人头。生成的 3D 高斯表示支持全头部全新视图合成。

unsetunset结果unsetunset

单幅图像到 3D 头部

FaceLift 是一种前馈方法，它将单个面部图像提升为具有保留身份特征的详细 3D 重建。

视频作为 4D 新视图合成的输入

给定视频作为输入，FaceLift 单独处理每一帧并生成 3D 高斯序列，从而实现 4D 新颖视图合成。

FaceLift 可以与LivePortrait 等 2D 面部动画方法结合，实现 3D 面部动画。

unsetunset结论unsetunset

FaceLift是一种前馈方法，可将单个面部图像提升为具有保留身份特征的详细 3D 重建。FaceLift 使用多视图扩散来生成不可观察的视图，并使用 GS-LRM 来重建 3D 高斯图，从而实现高质量的新视图合成。为了克服捕捉现实世界多视图人头图像的困难，渲染了高质量的合成数据进行训练，并表明，尽管仅使用合成数据进行训练，FaceLift 仍可以从现实世界捕获的图像中高保真地重建 3D 头部。与基线相比，FaceLift 生成具有更精细几何和纹理细节的 3D 头部表示，并表现出更好的身份保存能力。

不到60秒就能生成3D「手办」，Meta发力3D生成，ChatGPT时刻要来了吗？

3D 生成，一直在等待它的「ChatGPT时刻」。一直以来，创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而，3D 生成具有独特而艰巨的挑战，这是图像和视频等其他生成内容所不具备的。首先，3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准；其次，与其他研究相比，可用的数据量少。虽然该领域有数十亿张图像和视频可供学习，但可用于训练的 3D 内容数量要少三到四个数量级。因此，现阶段的3D 生成还必须从非 3D 的图像和

7/4/2024 5:55:00 PM

机器之心

模型压缩70%！精度更高！开源MoDec-GS：更紧凑、更精确的动态3DGS

本文经3D视觉之心公众号授权转载，转载请联系出处。论文信息标题：MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting作者：Sangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim机构：ETRI, South Korea、KAIST, South Korea、Chung-Ang University, South Korea原文链接：：. 导读3D Gaussian Splatting (3DGS)在场景表示和神经渲染方面取得了重大进展，并致力于使其适应动态场景。

1/22/2025 11:00:00 AM

3DCV

魔发奇缘，3D发型生成新突破！TANGLED：可用任意样式和视点的图像生成 3D 发束

在数字时代，发型不仅是时尚的标志，更是个人文化身份的彰显。但传统3D发型生成技术往往难以捕捉复杂发型的细腻之美。为此，上海科技大学和华中科技大学推出了ANGLED技术，能从任意风格、视角的图像中，轻松生成逼真3D发型。

2/24/2025 10:40:00 AM

AIGC Studio

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发本地部署DeepSeek+DiFy平台构建智能体应用击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部