CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

北京时间 6 月 20 日凌晨，在西雅图举办的国际计算机视觉顶会 CVPR 2024 正式公布了最佳论文等奖项。今年共有 10 篇论文获奖，其中 2 篇最佳论文，2 篇最佳学生论文，另外还有 2 篇最佳论文提名和 4 篇最佳学生论文提名。作为计算机视觉（CV）领域的顶级会议，CVPR 每年都会吸引大量研究机构和高校参会。据统计，今年共提交了 11532 份论文，2719 篇被接收，录用率为 23.6%。根据佐治亚理工学院对 CVPR 2024 录用数据的统计分析，从研究主题来看，论文数量最多的是图像和视频合成与生成

北京时间 6 月 20 日凌晨，在西雅图举办的国际计算机视觉顶会 CVPR 2024 正式公布了最佳论文等奖项。

今年共有 10 篇论文获奖，其中 2 篇最佳论文，2 篇最佳学生论文，另外还有 2 篇最佳论文提名和 4 篇最佳学生论文提名。

作为计算机视觉（CV）领域的顶级会议，CVPR 每年都会吸引大量研究机构和高校参会。据统计，今年共提交了 11532 份论文，2719 篇被接收，录用率为 23.6%。

根据佐治亚理工学院对 CVPR 2024 录用数据的统计分析，从研究主题来看，论文数量最多的是图像和视频合成与生成（Image and video synthesis and generation）主题，一共 329 篇。

今年的参会总人数高于往年，且越来越多的人选择了线下参会。

最佳论文

论文 1：Generative Image Dynamics

作者：Zhengqi Li、Richard Tucker、Noah Snavely、Aleksander Holynski

机构：谷歌研究院

论文地址：https://arxiv.org/pdf/2309.07906

Zhengqi Li（李正奇）是 Google DeepMind 的一名研究科学家。此前，他在康奈尔大学获得了计算机科学博士学位，师从 Noah Snavely 教授。他的研究成果曾多次获奖，包括 2020 年 Google 博士奖学金、2020 年 Adobe 研究奖学金、CVPR 2019 和 CVPR 2023 最佳论文荣誉奖、ICCV 2023 最佳学生论文奖。

摘要：该研究提出了一种对场景运动建模图像 - 空间先验的方法。该先验是从集合中学到的从真实视频序列中提取的运动轨迹，描绘了物体的自然振荡动力学，例如树木、衣服等物体在风中摇曳。该研究建模傅立叶域中密集的长期运动作为频谱体积（spectral volume），研究团队发现这非常适合用扩散模型预测。

给定单个图像，该研究训练的模型使用频率协调扩散采样过程来预测频谱体积，还可以转换为跨越整个视频的运动纹理（motion texture）。

该研究可以通过调整运动纹理的幅度来缩小（顶部）或放大（底部）动画运动。

与基于图像的渲染模块一起，预测的运动表征可用于许多下游应用，例如将静止图像变成无缝循环视频，或者允许用户与真实图像中的对象进行交互，产生逼真的模拟动态。

论文 2：Rich Human Feedback for Text-to-Image Generation

作者：Youwei Liang、Junfeng He、Gang Li、Peizhao Li、Arseniy Klimovskiy 等

机构：加利福尼亚大学圣迭戈分校、谷歌研究院、南加州大学、剑桥大学、布兰迪斯大学

论文地址：https://arxiv.org/pdf/2312.10240

从论文作者一栏我们可以看到，这项研究有多位华人参与，其中 Youwei Liang 是加利福尼亚大学圣迭戈分校电子与计算机工程系的一名博士生，在此之前，他是华南农业大学信息与计算机科学专业的本科生；Junfeng He 来自谷歌，此前他硕士毕业于清华大学。

摘要：最近，文本到图像（T2I）生成模型取得重大进展，能够根据文本描述生成高分辨率图像。然而，许多生成的图像仍然存在伪影 / 不可信、与事实不符、美观度低等问题。

受人类反馈强化学习（RLHF）成功用于大型语言模型的启发，该研究通过以下方式来丰富反馈信号：

用文本标记不可信或不对齐的图像区域；

对文本 prompt 中的单词在图像上被歪曲或缺失的情况，进行注释。

该研究创建了 18K 生成图像数据集 RichHF-18K，并在 RichHF-18K 上收集了丰富的人类反馈，并训练多模态 transformer 来自动预测反馈。该研究证明预测的人类反馈可用于改进图像生成，例如通过选择高质量的训练数据微调和改进生成模型，或者通过创建掩码来修复有问题的图像区域。

最佳论文亚军

论文 1：EventPS: Real-Time Photometric Stereo Using an Event Camera

作者：Bohan Yu、Jieji Ren、Jin Han、Feishi Wang、Jinxiu Liang、Boxin Shi

机构：北京大学、上海交通大学等

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf

论文 2：pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

作者：David Charatan 、 Sizhe Lester Li 、 Andrea Tagliasacchi 、 Vincent Sitzmann

机构：MIT、西蒙菲莎大学、多伦多大学

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf

最佳学生论文

论文 1：BioCLIP: A Vision Foundation Model for the Tree of Life

作者：Samuel Stevens 、Jiaman Wu 、Matthew J Thompson 、 Elizabeth G Campolongo 、 Chan Hee Song 、 David Edward Carlyn 、 Li Dong 、 Wasila M Dahdul 、 Charles Stewart 、 Tanya Berger-Wolf 、 Wei-Lun Chao 、 Yu Su

机构：俄亥俄州立大学、微软研究院、加利福尼亚大学欧文分校、伦斯勒理工学院

论文地址：https://arxiv.org/pdf/2311.18803

摘要：从无人机到个人手机，各种相机收集的自然世界图像日益成为生物信息的丰富来源。计算方法和工具的爆炸式增长，特别是计算机视觉，用于从科学和保护图像中提取生物学相关信息。然而，其中大多数都是为特定任务设计的定制方法，不容易适应或扩展到新的问题、上下文和数据集。研究者急需一个用于图像上一般生物体生物学问题的视觉模型。

为了实现这一目标，该研究策划并发布了 TREEOFLIFE-10M，这是规模最大、最多样化的生物图像数据集 ML-ready。基于此，研究者开发了基础模型 BIOCLIP，主要用于构建生命之树（tree of life），利用 TREEOFLIFE-10M 捕捉到的生物学独特属性，即植物、动物和真菌图像的丰富性和多样性，以及丰富的结构化生物学知识。

TREEOFLIFE-10M 中 108 个门的树状图。

研究者在各种细粒度生物学分类任务上对本文方法进行了严格的基准测试，发现 BIOCLIP 的表现始终显著优于现有基线（绝对值高出 16% 到 17%）。

内在评估表明，BIOCLIP 已经学会了符合生命之树的分层表示，这揭示了其强大的通用性。

论文 2：Mip-Splatting：Alias-free 3D Gaussian Splatting

论文作者：Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger

机构：图宾根大学、图宾根人工智能中心、上海科技大学、布赖特宁、布拉格捷克技术大学

论文地址：https://arxiv.org/abs/2311.16493

摘要：最近，3D 高斯泼溅技术在新颖视图合成方面展示了令人印象深刻的成果，达到了高保真度和效率水平。然而，当改变采样率时（例如通过改变焦距或摄像机距离），强烈的伪影现象可能会出现。

3D 高斯泼溅通过将 3D 对象表示为被投影到图像平面上的 3D 高斯函数，随后在屏幕空间中进行 2D 膨胀处理，如图 (a) 所示。该方法的内在收缩偏差导致退化的 3D 高斯函数超出采样限制，如图 (b) 中的 δ 函数所示，而由于膨胀操作，其渲染效果类似于 2D。然而，当改变采样率（通过焦距或相机距离）时，会观察到强烈的膨胀效应（c）和高频伪影（d）。

该研究团队发现这种现象的原因可以归因于缺乏 3D 频率约束以及使用了 2D dilation filter。为了解决这个问题，他们引入了一种 3D smoothing filter，该滤波器根据输入视图引起的最大采样频率来约束 3D Gaussian primitives 的大小，从而在放大时消除高频伪影。

此外，作者团队用 2D Mip filter 替换 2D dilation filter，这种滤波器模拟了 2D box filter，有效地缓解了走样和膨胀问题。研究者根据评估，包括在单尺度图像上训练和多尺度测试等场景，验证了这种方法的有效性。

最佳学生论文亚军

论文：SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency

作者：Paul Roetzer 、Florian Bernard

机构：波恩大学

链接：https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf

论文：Image Processing GNN: Breaking Rigidity in Super-Resolution

作者：Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang

机构：北京大学、华为诺亚方舟实验室

链接：https://openaccess.thecvf.com/content/CVPR2024/papers/Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_2024_paper.pdf

论文：Objects as volumes: A stochastic geometry view of opaque solids

作者：Bailey Miller、Hanyu Chen、Alice Lai、Ioannis Gkioulekas

机构：卡耐基梅隆大学

链接：https://arxiv.org/pdf/2312.15406v2

论文：Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods

作者：Mingqi Jiang 、 Saeed Khorram 、 Li Fuxin

机构：俄勒冈州立大学

链接：https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_2024_paper.pdf

其他奖项

大会还公布了 PAMI TC 奖，包括 Longuet-Higgins 奖、青年研究者奖、Thomas S. Huang 纪念奖三项。

Longuet-Higgins 奖

Longuet-Higgins 奖是 IEEE 计算机协会模式分析与机器智能（PAMI）技术委员会在每年的 CVPR 颁发的「计算机视觉基础贡献奖」，表彰十年前对计算机视觉研究产生了重大影响的 CVPR 论文。该奖项以理论化学家和认知科学家 H. Christopher Longuet-Higgins 命名。

今年获奖的论文是《Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation》。

作者：Ross Girshick, Jeff Donahue, Trevor Darrell and Jitendra Malik

机构：UC 伯克利

论文链接：https://arxiv.org/abs/1311.2524

青年研究者奖

青年研究者奖（Young Researcher Awards）旨在表彰年轻的科学家，鼓励他们继续做出开创性的工作。评选标准是获奖者获得博士学位的年限少于 7 年。

今年获奖者为 Angjoo Kanazawa（UC 伯克利）和 Carl Vondrick（哥伦比亚大学）。

另外，Katie Bouman（加州理工学院）获得了青年研究者奖荣誉提名。

Thomas Huang 纪念奖

在 CVPR 2020 上，为了纪念 Thomas S. Huang（黄煦涛）教授，PAMITC 奖励委员会批准设立 Thomas S. Huang 纪念奖，以表彰在 CV 研究、教育和服务方面被公认为楷模的研究人员。该奖项从 2021 年开始颁发。获奖者需要拿到博士学位至少 7 年，最好处于职业发展中期（不超过 25 年）。

今年的获奖者是牛津大学教授 Andrea Vedaldi。