北京时间 6 月 20 日凌晨,在西雅图举办的国际计算机视觉顶会 CVPR 2024 正式公布了最好论文等奖项。
今年共有 10 篇论文获奖,其中 2 篇最好论文,2 篇最好学生论文,另外还有 2 篇最好论文提名和 4 篇最好学生论文提名。
作为计算机视觉(CV)领域的顶级会议,CVPR 每年都会吸引大量钻研机构和高校参会。据统计,今年共提交了 11532 份论文,2719 篇被接收,录用率为 23.6%。
根据佐治亚理工学院对 CVPR 2024 录用数据的统计分析,从钻研主题来看,论文数量最多的是图象和视频合成与生成(Image and video synthesis and generation)主题,一共 329 篇。
今年的参会总人数高于往年,且越来越多的人选择了线下参会。
最好论文
论文 1:Generative Image Dynamics
作家:Zhengqi Li、Richard Tucker、Noah Snavely、Aleksander Holynski
机构:谷歌钻研院
论文地点:https://arxiv.org/pdf/2309.07906
Zhengqi Li(李正奇)是 Google DeepMind 的一名钻研科学家。此前,他在康奈尔大学获得了计算机科学博士学位,师从 Noah Snavely 教授。他的钻研成果曾多次获奖,包括 2020 年 Google 博士奖学金、2020 年 Adobe 钻研奖学金、CVPR 2019 和 CVPR 2023 最好论文荣誉奖、ICCV 2023 最好学生论文奖。
摘要:该钻研提出了一种对场景疏通建模图象 – 空间先验的方法。该先验是从集合中学到的从真实视频序列中提取的疏通轨迹,描绘了物体的自然振荡动力学,例如树木、衣服等物体在风中摇曳。该钻研建模傅立叶域中密集的长期疏通作为频谱体积(spectral volume),钻研团队发现这非常适合用扩散模型预测。
给定单个图象,该钻研训练的模型使用频率协调扩散采样过程来预测频谱体积,还可以转换为跨越整个视频的疏通纹理(motion texture)。
该钻研可以通过调整疏通纹理的幅度来缩小(顶部)或放大(底部)动画疏通。
与基于图象的渲染模块一起,预测的疏通表征可用于许多下游应用,例如将静止图象变成无缝循环视频,或者允许用户与真实图象中的对象进行交互,产生逼真的模拟动态。
论文 2:Rich Human Feedback for Text-to-Image Generation
作家:Youwei Liang、Junfeng He、Gang Li、Peizhao Li、Arseniy Klimovskiy 等
机构:加利福尼亚大学圣迭戈分校、谷歌钻研院、南加州大学、剑桥大学、布兰迪斯大学
论文地点:https://arxiv.org/pdf/2312.10240
从论文作家一栏我们可以看到,这项钻研有多位华人参与,其中 Youwei Liang 是加利福尼亚大学圣迭戈分校电子与计算机工程系的一名博士生,在此之前,他是华南农业大学信息与计算机科学专业的本科生;Junfeng He 来自谷歌,此前他硕士毕业于清华大学。
摘要:最近,文本到图象(T2I)生成模型取得重大进展,能够根据文本描述生成高分辨率图象。然而,许多生成的图象仍然存在伪影 / 不可信、与事实不符、美观度低等问题。
受人类反应强化学习(RLHF)成功用于大型语言模型的启发,该钻研通过以下方式来丰富反应信号:
用文本标记不可信或不对齐的图象区域;
对文本 prompt 中的单词在图象上被歪曲或缺失的情况,进行注释。
该钻研创建了 18K 生成图象数据集 RichHF-18K,并在 RichHF-18K 上收集了丰富的人类反应,并训练多模态 transformer 来自动预测反应。该钻研证明预测的人类反应可用于改进图象生成,例如通过选择高质量的训练数据微调和改进生成模型,或者通过创建掩码来修复有问题的图象区域。
最好论文亚军
论文 1:EventPS: Real-Time Photometric Stereo Using an Event Camera
作家:Bohan Yu、Jieji Ren、Jin Han、Feishi Wang、Jinxiu Liang、Boxin Shi
机构:北京大学、上海交通大学等
论文地点:https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf
论文 2:pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction
作家:David Charatan 、 Sizhe Lester Li 、 Andrea Tagliasacchi 、 Vincent Sitzmann
机构:MIT、西蒙菲莎大学、多伦多大学
论文地点:https://openaccess.thecvf.com/content/CVPR2024/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf
最好学生论文
论文 1:BioCLIP: A Vision Foundation Model for the Tree of Life
作家:Samuel Stevens 、Jiaman Wu 、Matthew J Thompson 、 Elizabeth G Campolongo 、 Chan Hee Song 、 David Edward Carlyn 、 Li Dong 、 Wasila M Dahdul 、 Charles Stewart 、 Tanya Berger-Wolf 、 Wei-Lun Chao 、 Yu Su
机构:俄亥俄州立大学、微软钻研院、加利福尼亚大学欧文分校、伦斯勒理工学院
论文地点:https://arxiv.org/pdf/2311.18803
摘要:从无人机到个人手机,各种相机收集的自然世界图象日益成为生物信息的丰富来源。计算方法和工具的爆炸式增长,特别是计算机视觉,用于从科学和保护图象中提取生物学相关信息。然而,其中大多数都是为特定任务设计的定制方法,不容易适应或扩展到新的问题、上下文和数据集。钻研者急需一个用于图象上一般生物体生物学问题的视觉模型。
为了实现这一目标,该钻研策划并发布了 TREEOFLIFE-10M,这是规模最大、最多样化的生物图象数据集 ML-ready。基于此,钻研者开发了基础模型 BIOCLIP,主要用于构建生命之树(tree of life),利用 TREEOFLIFE-10M 捕捉到的生物学独特属性,即植物、动物和真菌图象的丰富性和多样性,以及丰富的结构化生物学知识。
TREEOFLIFE-10M 中 108 个门的树状图。
钻研者在各种细粒度生物学分类任务上对本文方法进行了严格的基准测试,发现 BIOCLIP 的表现始终显著优于现有基线(绝对值高出 16% 到 17%)。
内在评估表明,BIOCLIP 已经学会了符合生命之树的分层表示,这揭示了其强大的通用性。
论文 2:Mip-Splatting:Alias-free 3D Gaussian Splatting
论文作家:Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger
机构:图宾根大学、图宾根人工智能中心、上海科技大学、布赖特宁、布拉格捷克技术大学
论文地点:https://arxiv.org/abs/2311.16493
摘要:最近,3D 高斯泼溅技术在新颖视图合成方面展示了令人印象深刻的成果,达到了高保真度和效率水平。然而,当改变采样率时(例如通过改变焦距或摄像机距离),强烈的伪影现象可能会出现。
3D 高斯泼溅通过将 3D 对象表示为被投影到图象平面上的 3D 高斯函数,随后在屏幕空间中进行 2D 膨胀处理,如图 (a) 所示。该方法的内在收缩偏差导致退化的 3D 高斯函数超出采样限制,如图 (b) 中的 δ 函数所示,而由于膨胀操作,其渲染效果类似于 2D。然而,当改变采样率(通过焦距或相机距离)时,会观察到强烈的膨胀效应(c)和高频伪影(d)。
该钻研团队发现这种现象的原因可以归因于缺乏 3D 频率约束以及使用了 2D dilation filter。为了解决这个问题,他们引入了一种 3D smoothing filter,该滤波器根据输入视图引起的最大采样频率来约束 3D Gaussian primitives 的大小,从而在放大时消除高频伪影。
此外,作家团队用 2D Mip filter 替换 2D dilation filter,这种滤波器模拟了 2D box filter,有效地缓解了走样和膨胀问题。钻研者根据评估,包括在单尺度图象上训练和多尺度测试等场景,验证了这种方法的有效性。
最好学生论文亚军
论文:SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency
作家:Paul Roetzer 、Florian Bernard
机构:波恩大学
链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf
论文:Image Processing GNN: Breaking Rigidity in Super-Resolution
作家:Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang
机构:北京大学、华为诺亚方舟实验室
链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_2024_paper.pdf
论文:Objects as volumes: A stochastic geometry view of opaque solids
作家:Bailey Miller、Hanyu Chen、Alice Lai、Ioannis Gkioulekas
机构:卡耐基梅隆大学
链接:https://arxiv.org/pdf/2312.15406v2
论文:Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods
作家:Mingqi Jiang 、 Saeed Khorram 、 Li Fuxin
机构:俄勒冈州立大学
链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_2024_paper.pdf
其他奖项
大会还公布了 PAMI TC 奖,包括 Longuet-Higgins 奖、青年钻研者奖、Thomas S. Huang 纪念奖三项。
Longuet-Higgins 奖
Longuet-Higgins 奖是 IEEE 计算机协会模式分析与机器智能(PAMI)技术委员会在每年的 CVPR 颁发的「计算机视觉基础贡献奖」,表彰十年前对计算机视觉钻研产生了重大影响的 CVPR 论文。该奖项以理论化学家和认知科学家 H. Christopher Longuet-Higgins 命名。
今年获奖的论文是《Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation》。
作家:Ross Girshick, Jeff Donahue, Trevor Darrell and Jitendra Malik
机构:UC 伯克利
论文链接:https://arxiv.org/abs/1311.2524
青年钻研者奖
青年钻研者奖(Young Researcher Awards)旨在表彰年轻的科学家,鼓励他们继续做出开创性的工作。评选标准是获奖者获得博士学位的年限少于 7 年。
今年获奖者为 Angjoo Kanazawa(UC 伯克利)和 Carl Vondrick(哥伦比亚大学)。
另外,Katie Bouman(加州理工学院)获得了青年钻研者奖荣誉提名。
Thomas Huang 纪念奖
在 CVPR 2020 上,为了纪念 Thomas S. Huang(黄煦涛)教授,PAMITC 奖励委员会批准设立 Thomas S. Huang 纪念奖,以表彰在 CV 钻研、教育和服务方面被公认为楷模的钻研人员。该奖项从 2021 年开始颁发。获奖者需要拿到博士学位至少 7 年,最好处于职业发展中期(不超过 25 年)。
今年的获奖者是牛津大学教授 Andrea Vedaldi。
更多信息可参考:https://media.eventhosts.cc/Conferences/CVPR2024/OpeningRemarkSlides.pdf
参考链接:
https://public.tableau.com/views/CVPR2024/CVPRtrends?%3AshowVizHome=no&continueFlag=6a947f6367e90acd982f7ee49a495fe2