按部就班 vs. 好奇心驱动,哪个更容易出钻研成果?
CVPR 2024 的最好学生论文,竟然是用一个月的时间写出来的。
北京时间 6 月 20 日凌晨,CVPR 2024 正式公布了最好论文、最好学生论文等奖项。其中,获得最好论文的有两篇文章 ——BioCLIP 和 Mip-Splatting。
据 Mip-Splatting 论文一作 Zehao Yu 的导师、图宾根大学教授 Andreas Geiger 透露,这篇论文从设法主意公布到成稿,只用了一个月的时间。
而且,他还提到,Zehao Yu 之前参与过多个项目,并发表过自己的论文。但在 Mip-Splatting 项目之前,他从未接触过高斯泼溅技巧,对于高斯泼溅的入门也是在业余时间以个人兴趣的形式展开的。这让他不禁感叹,「钻研是高度非线性的,往往很难规划,这正是它令人生畏的地方,同时也令人兴奋。我们必须接受这一点。」
Mip-Splatting 论文的完整标题是「Mip-Splatting: Alias-free 3D Gaussian Splatting」。在论文中,Zehao Yu 等人介绍了一种用于 3D 图象衬着的抗锯齿 3D 高斯泼溅步骤 ——Mip-Splatting。
3D 图象衬着是指生成三维图象的过程。想象一下电脑游戏中的那些逼真的场景或动画电影中的角色,它们都是通过衬着技巧从一堆数据变成我们看到的图象。
在计算机图形学中,锯齿(alias)是指图象边缘出现的锯齿状不光滑现象(见下图)。抗锯齿技巧就是用来消除这些锯齿,使图象边缘看起来更加光滑和自然,近几年颇受关注的高斯泼溅就是这样一种技巧。它利用高斯分布来光滑图象边缘,从而减少锯齿效应,使得图象更为光滑和自然。
在回顾 Zehao Yu 和他的钻研历程时,Andreas Geiger 提到:
Zehao 已经在我的实验室里做了一段时间的博士生了。他和实验室里的许多人一样,做了很多出色的工作。首先,他参与了一些项目(TransFuser),并在 NeurIPS 2022 会议上发表了他的第一篇独立论文(MonoSDF)。他还开发了一个用于表面重建的完整软件框架,基于 SDF 模型(SDFStudio)。
在 Mip-Splatting 之前,他没有用过高斯泼溅步骤。事实上,他当时正在钻研另一个使用更「传统」神经隐式表示的项目。但那个项目进展得不太顺利,很长一段时间里充满障碍。到了 2023 年 10 月,他在业余时间开始玩高斯泼溅技巧。他喜欢在业余时间尝试新事物并钻研新的模型。
3DGS(3D Gaussian Splatting)是当时的新技巧。简而言之,它可以从几个输入图象中生成逼真的新视角,比 NeRF 和之前的其他步骤更快。但 Zehao 对在超出训练姿态分布时衬着的表现感到困惑。这些衬着效果会退化,结构变得太细或太粗。大概当时很多人都注意到了这些现象,但还没有人解决它们。Zehao 有一个简单的解决方案,并且在想这个步骤是否够好,是否值得发表。
在 10 月 18 日,Zehao 写道:「大家好,我计划提交一篇关于解决最近 3D 高斯泼溅的抗锯齿 / 缩放伪影的论文到 CVPR。我发现这些伪影的主要原因是低通滤波器。在使用泼溅步骤进行衬着时,低通滤波器是非常常见的。但当它应用于优化框架(从多视图图象重建)时,它会引入一种偏置,使得真实的 3D 高斯变小(因为滤波器在衬着过程中会使其变大)。所以当我们放大或缩小时,由于视角与训练视角不同,我们会看到伪影。但我们不能简单地抛弃低通滤波器,因为这样就无法实现抗锯齿。
我的解决方案非常简单:1)我们应该使用较小的低通滤波器,这样低通滤波器的效果不会在训练中占主导地位;2)添加一个正则化,使得高斯不会变得太小。」
时间非常紧张:从设法主意到 CVPR 截止日期只有 1 个月。通常这种努力不会顺利进行,因为剩下的时间太少,无法进行论文润色或实验。但 Zehao 坚信他甚至可以在截止日期前 1-2 周完成。他正在做实验,我们所有人都开始一起写论文。我们在 11 月 17 日提交给 CVPR,并在 1 月 23 日惊讶地收到 3 个「strong accept」的评审意见。昨天,Mip-Splatting 在 CVPR 获得了最好学生论文奖。我们非常感谢社区、评审、领域主席和奖项委员会对这个小小设法主意的认可。
Mip-Splatting 与其他步骤的效果对比。
论文链接:https://arxiv.org/pdf/2311.16493
一个简单的设法主意,用了短短一个月就写成了论文,还拿到了 CVPR 最好学生论文奖,不知其他钻研者听到有何感想。
Andreas Geiger 也谦虚得说,这里面有运气的成分(有人可能认为这篇论文是增量式创新),评审的结果也未必 100% 公平。但他之所以分享这段经历,只是想要表达:
钻研往往是非常非线性的。在从事某项工作的同时,你会发现其他的东西。最重要的一点是要努力工作,充满热情,充满好奇心,不断尝试新事物。要有创造力。提出疯狂的设法主意。用未曾设计过的方式测试现有模型。不断前进。这就是每个钻研人员的核心:好奇心。试图探究事物的本质。深入了解它们,从而(有时在不经意间非常意外地)做出新发现。
写到这里,他还推荐了苹果高级科学家 Vladlen Koltun 在 CVPR 2018 年的一个演讲,主题是「Doing (Good) Research」。(演讲链接:https://www.youtube.com/watch?v=4LEZED1YXm0&t=1420s)
不过,他也指出,在现行的科研系统中,科学家要通过提交钻研计划、 撰写资助申请书来获取钻研项目资金,这和好奇心驱动的钻研理念很不相称,尤其是在 AI 这样一个快速发展的领域。
「你很少能制定出一个精确的 3 年甚至 5 年愿景,并完全按照这个愿景行事。更有可能的情况是,在钻研过程中会出现一些有趣的相关钻研问题,这些问题值得钻研,你不应该因为它们与你最初的钻研计划不完全一致而不去钻研它们。」Vladlen Koltun 写到。但对此,他也没有很好的解决方案。
最后介绍一下论文一作 Zehao Yu。他本科毕业于厦门大学,之后在上海科技大学拿到了硕士学位,2021 年前往德国图宾根大学读博。他的钻研重点是计算机视觉和机器学习,特别是 3D 视觉(深度估计、平面检测、多视图立体视觉、3D 重建、3D 人体建模)。
个人主页:https://niujinshuchong.github.io/
参考链接:https://www.facebook.com/andreas.geiger.395