​全新技术 Fast3R :实现千张图片一键3D 重建,速度惊人!

在计算机视觉领域,多视角3D 重建一直是一项重要且具挑战性的任务,尤其是在需要精确且可扩展的表示时。 现有的主流方法,例如 DUSt3R,主要采用成对处理的方式,这种方法在进行多视角重建时需要复杂的全局对齐程序,既耗时又耗力。 为了解决这一问题,研究团队提出了 Fast3R,这是一种创新的多视角重建技术,它可以在一次前向传播中处理多达1500张图片,大幅提升了重建速度。

在计算机视觉领域,多视角3D 重建一直是一项重要且具挑战性的任务,尤其是在需要精确且可扩展的表示时。现有的主流方法,例如 DUSt3R,主要采用成对处理的方式,这种方法在进行多视角重建时需要复杂的全局对齐程序,既耗时又耗力。为了解决这一问题,研究团队提出了 Fast3R,这是一种创新的多视角重建技术,它可以在一次前向传播中处理多达1500张图片,大幅提升了重建速度。

QQ_1741154118372.png

Fast3R 的核心是一个基于 Transformer 的架构,能够并行处理多张视图信息,从而省去迭代对齐的过程。这一新方法通过广泛的实验验证了其在相机位姿估计和3D 重建任务中的出色表现,显著提高了推理速度,并减少了误差积累,使 Fast3R 成为多视角应用中一种强有力的替代方案。

QQ_1741154184404.png

在 Fast3R 的实现中,研究者运用了一系列大规模模型训练和推理技术,确保了高效且可扩展的处理能力。这些技术包括 FlashAttention2.0(用于内存高效的注意力计算)、DeepSpeed ZeRO-2(用于分布式训练优化)、位置嵌入插值(便于短期训练和长期测试)以及张量并行(加速多 GPU 推理)。

在计算效率方面,Fast3R 在单张 A100GPU 上表现优异,显示出相比 DUSt3R 的显著优势。例如,当处理32张分辨率为512×384的图像时,Fast3R 仅需0.509秒,而 DUSt3R 则需要129秒,且在处理48张图像时便面临内存溢出的问题。Fast3R 不仅在时间和内存消耗上表现突出,也在模型和数据规模方面展现出良好的扩展性,预示着其在大规模3D 重建中的广阔前景。

项目入口:https://fast3r-3d.github.io/

划重点:

🌟 Fast3R 技术可以在一次前向传播中处理多达1500张图片,大幅提高3D 重建速度。  

⚡ Fast3R 的 Transformer 架构支持并行处理,省去传统方法的复杂对齐过程。  

🚀 与 DUSt3R 相比,Fast3R 在时间和内存使用上展现出显著优势,适用于大规模3D 重建应用。

相关资讯

CVPR 2024 Highlight | 基于单曝光压缩成像,不依赖生成模型也能从单张图像中重建三维场景

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]。原文链接:::SCINeRF: Neural Radiance Fields from a Snapshot Compressive Image一、引言传统的 3D 重建算法需要不同视角

腾讯混元开源 Hunyuan3D-1.0:首个同时支持文生和图生的 3D 开源大模型

腾讯混元今日开源了 Hunyuan3D-1.0 大模型,官方称这是首个同时支持文生和图生的 3D 开源大模型。 ▲ 文生模型▲ 图生模型模型采用两阶段生成方法,官方表示在保证质量和可控的基础上,10 秒即可生成 3D 资产:第一阶段,团队采用了一种多视角扩散模型,轻量版模型能够在大约 4 秒内生成多视角图像。 这些多视角图像从不同的视角捕捉了 3D 资产的丰富的纹理和几何先验,将任务从单视角重建松弛到多视角重建第二阶段,团队引入了一种前馈重建模型,利用上一阶段生成的多视角图像。

无监督训练用堆叠自编码器是否落伍?ML博士对比了8个自编码器

柏林工业大学深度学习方向博士生 Tilman Krokotsch 在多项任务中对比了 8 种自编码器的性能。