AI在线 AI在线

CVPR 2025:单图秒变专业影棚,几何/材质/光影全搞定,数据训练代码全开源

作者:量子位
2025-04-03 09:25
如何从一张普通的单幅图像准确估计物体的三维法线和材质属性,是计算机视觉与图形学领域长期关注的难题。 这种单图逆渲染任务存在严重的不确定性,传统方法通常需要多角度或多光源的拍摄条件,难以在日常场景中普遍应用。  近日,由香港中文大学、上海人工智能实验室及南洋理工大学的研究团队联合研发的论文《Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion》。

如何从一张普通的单幅图像准确估计物体的三维法线和材质属性,是计算机视觉与图形学领域长期关注的难题。

这种单图逆渲染任务存在严重的不确定性,传统方法通常需要多角度或多光源的拍摄条件,难以在日常场景中普遍应用。 

近日,由香港中文大学、上海人工智能实验室及南洋理工大学的研究团队联合研发的论文《Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion》。

图片

其成果已被计算机视觉顶级会议CVPR 2025正式接收。

图片

核心立意

Neural LightRig创新性地提出利用图像扩散模型(如Stable Diffusion)的强大先验信息,生成虚拟的多光照图像,从而有效解决单图估计法线和PBR材质过程中存在的不确定性问题。

图片

研究团队首次提出通过微调预训练的图像扩散模型,生成不同光照条件下的一致性多光照图像序列,这种方法有效减少了单图估计过程中的内在不确定性。

混合条件策略:通过通道级别的图像拼接与参考注意力机制的结合,引入输入图像的先验信息,有效保证了生成图像的颜色和纹理细节的一致性。

双阶段微调策略:首先仅微调扩散模型的初始卷积层及注意力层,以稳定早期训练;随后以较低学习率微调整个模型,进一步提升模型生成多光照图像的质量。图片2. 基于U-Net的大型G-buffer重建模型

利用扩散模型生成的多光照图像作为辅助信息,团队设计了一个基于U-Net架构的回归模型,以实现对物体表面法线和PBR材质属性(包括反照率、粗糙度、金属性)的高效精确估计。

显式光照条件输入:通过对光源位置进行球面坐标编码,使模型能显式地关联不同光照方向下的图像变化,更有效地预测物体表面属性。

优化目标设计:采用余弦相似度损失和均方误差(MSE)联合优化法线估计,材质估计则采用简单而有效的均方误差损失。

数据增强策略:针对扩散模型生成图像与真实渲染图像之间的领域差异,提出随机降质、亮度调整、光照方向扰动和数据混合策略,以提高模型的泛化能力与稳定性。

实验表现

在自主构建的大规模数据集LightProp上的实验结果表明,Neural LightRig在各项指标上全面超越现有先进方法:

  • 法线估计:平均角度误差显著降低至6.413°,大幅提高估计精度(详见论文表1和图5);
  • 材质估计与新光照下渲染效果:实现了对反照率、粗糙度和金属性等材质属性的精准估计,并能够生成逼真的单图重光照效果(详见论文表2与图6图7)。

图片

图片

此外,该方法在真实世界图像中的泛化表现突出,展现出良好的实际应用潜力,适用于增强现实(AR)、虚拟现实(VR)和数字内容创作等广泛领域。

法线估计图片材质估计

图片

新光照渲染图片

开源与资源为促进研究与应用,研究团队已公开了相关资源,欢迎社区同行积极使用和探索:

代码开源地址:https://github.com/ZexinHe/Neural-LightRig 

数据集开源地址: https://huggingface.co/datasets/zxhezexin/NLR-LightProp-Objaverse-Renderings 

预训练模型地址: https://huggingface.co/zxhezexin/neural-lightrig-mld-and-recon 

论文链接: https://arxiv.org/abs/2412.09593

项目主页: https://projects.zxhezexin.com/neural-lightrig/

相关标签:

相关资讯

41%博士后逃生学术界,顶刊PNAS揭残酷真相!名校光环背后曝职业危机

去年,随着LLM产品化和工程化的发展,工业界的研究岗迅速缩减,许多AI博士面临巨大的就业压力,纷纷表示后悔读博。 工业界机会稀少,学术界同样问题重重。 为此,有的博士生甚至转行去当了主播。
1/22/2025 3:14:57 PM
新智元

南大钱超团队攻克百亿晶体管难题,斩获EDA顶会2025最佳论文!AI学院本硕博生联手

据南京大学人工智能学院网站报道,南大LAMDA组钱超教授团队在DATE 2025发表的芯片设计优化论文「Timing-Driven Global Placement by Efficient Critical Path Extraction」获会议最佳论文奖。 电子设计自动化(Electronic Design Automation,EDA)是芯片设计的基石产业,被誉为「芯片之母」。 欧洲设计自动化与测试会议(Design, Automation and Test in Europe Conference,DATE)是EDA领域的顶级国际学术会议。
2/24/2025 12:33:28 PM
新智元

性能无损,模型隐私保护效果提升50%!蚂蚁数科创新跨域微调框架| AAAI 2025 Oral

大模型的快速及持续发展,离不开对模型所有权及数据隐私的保护。 AAAI 2025期间,蚂蚁数科、浙江大学、利物浦大学和华东师范大学联合团队提出了一种创新的跨域微调框架ScaleOT,可以实现在模型性能无损的前提下,将模型隐私保护效果提升50%。 相比于知识蒸馏技术,还降低了90%的算力消耗,为百亿级参数模型的跨域微调提供了一种高效和轻量化的解决方案。
3/4/2025 9:20:00 AM
量子位