单目深度估计

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计(MDE)。近日,一种可有效利用大规模无标注图像的新 MDE 模型  Depth Anything 凭借强大的性能在社交网络上引起了广泛讨论,试用者无不称奇。甚至有试用者发现它还能正确处理埃舍尔(M.C.Escher)那充满错觉的绘画艺术(启发了《纪念碑谷》等游戏和艺术):从水上到水下,丝滑切换:更好的深度模型也得到了效果更好的以深度为条件的 Contr
  • 1