你去现场参会了吗?
近日,位列计算机视觉领域三大国际顶级会议的 ECCV 2024 在意大利米兰开幕,本届会议的各奖项已经揭晓。
据大会官方统计,今年共有 2395 篇论文被录用,录用率为 18%,创下近年新低。
昨晚,大会公布了一系列奖项,哥伦比亚大学的研究者摘得最佳论文奖,还有 2 篇论文获得了最佳论文荣誉提名奖。与往届一样,大会还公布了经典论文 Koenderink 奖和 PAMI Everingham 奖。
最佳论文奖
本届最佳论文由来自哥伦比亚大学的两位学者摘得。
论文地址:
https://cave.cs.columbia.edu/Statics/publications/pdfs/Klotz_ECCV24.pdf
这篇论文由两位研究者共同完成,他们分别是 Shree Nayar 和 Jeremy Klotz。
Shree Nayar 是哥伦比亚大学计算机科学系的 T. C. Chang 教授。他领导着哥伦比亚视觉实验室(CAVE),该实验室致力于开发计算成像和计算机视觉系统。他的研究主要集中在三个领域:创造提供新形式视觉信息的新型相机,设计基于物理的视觉和图形学模型以及开发从图像中理解场景的算法。他的工作旨在应用于以下领域:成像、计算机视觉、机器人学、虚拟现实、增强现实、视觉通信、计算机图形学和人机交互界面。
Jeremy Klotz 哥伦比亚大学的三年级博士生,导师是 Shree Nayar,在攻读博士学位之前,曾在卡内基梅隆大学(CMU)与 Aswin Sankaranarayanan 一起工作。
摘要:论文介绍了一种创新的极简主义视觉系统概念。这种系统使用最少数量的像素来完成视觉任务,与传统相机使用大量方形像素网格不同,极简相机采用可任意形状的自由形式像素,以增加信息含量。实现上,这种系统的硬件被建模为神经网络的第一层,通过训练来确定自由形式像素的形状。每个像素由光电探测器和光学掩模实现。研究者设计了几种应用案例,如用 8 个像素进行室内空间监控和光照测量,以及用 8 个像素估算交通流量。尽管像素数量极少,这些系统的性能却与使用多个数量级更多像素的传统相机相当。
极简主义视觉系统具有两个显著优势。首先,它天然地保护了个人隐私,因为捕获的信息不足以提取详细的视觉细节。其次,由于测量次数很少,系统可以完全自供电,无需外部电源或电池。这种创新方法在保护隐私和节能方面展现出巨大潜力,同时又能有效完成特定的视觉任务,为未来视觉技术的发展提供了新的思路。
最佳论文荣誉提名奖
与此同时,ECCV 2024 也公布了最佳论文荣誉提名奖,共有 2 篇论文获奖。
论文 1:Rasterized Edge Gradients: Handling Discontinuities Differentially
论文地址:https://arxiv.org/abs/2405.02508
机构:Meta Reality Labs Research
摘要:计算渲染过程的梯度对于计算机视觉和图形学中的各种应用至关重要。然而,由于不连续性和渲染近似,准确计算这些梯度具有挑战性,特别是对于基于表面的表示和基于光栅化的渲染。研究人员提出了一种新方法,用于计算基于光栅化的可微渲染器在可见性不连续处的梯度。我们的方法通过精心设计的近似策略,优雅地简化了传统上复杂的问题,从而实现了一个直接、有效且高性能的解决方案。
研究人员引入了一个新概念 —— 微边缘,它允许我们将光栅化图像视为一个可微的、连续过程的结果,与本质上不可微的离散像素光栅化相一致。这种技术消除了对渲染近似或前向传递其他修改的需求,保持了渲染图像的完整性,使其适用于光栅化的掩码、深度和法线图像,而在这些情况下滤波是不可行的。利用微边缘简化了不连续处的梯度解释,并能够处理几何交叉,相比于先前的方法具有优势。
研究者在动态人头场景重建中展示了该方法的应用,证明了其在处理相机图像和分割掩码方面的有效性。
论文 2:Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models
论文地址:https://arxiv.org/abs/2404.13706
机构:Boston University、University of Washington、University of Pittsburgh
摘要:出于伦理和法律考虑,科学界正在积极开发方法,以限制文本到图像扩散模型的滥用,防止在生成的图像中复制受版权保护的、暴力的、露骨的或个人信息。同时,研究人员通过扮演对手的角色来测试这些新开发的安全措施,以寻找其中的漏洞和后门。
研究人员利用扩散模型的组合属性,这允许在单个图像生成中利用多个提示。这种属性使他们能够结合其他本不应受到抑制影响的概念,重构负责目标概念生成的向量,即使这个向量的直接计算不再可访问。研究人员提供理论和实证证据,说明为什么提出的攻击是可能的,并讨论这些发现对安全模型部署的影响。
他们认为,考虑对手可能采用的所有可能的扩散模型图像生成方法是至关重要的。这项工作开启了关于概念算术和组合推理对扩散模型安全机制影响的讨论。
经典论文:Koenderink 奖
Koenderink 奖旨在表彰计算机视觉领域的基础性贡献研究,获奖论文均为发表时间超过十年并经受住时间检验的研究。
本届的获奖论文是 Microsoft COCO: Common Objects in Context,于 2014 年发表,引用超过 5 万多次。当时,几位作者分别来自康奈尔大学和微软研究院、加州大学伯克利分校、康奈尔大学、布朗大学、加州理工学院、加州大学欧文分校以及 Facebook AI 研究院。
获奖原因指出,该团队在物体识别、场景理解和图像描述领域做出了基础性贡献,通过创建了一个大规模的数据集来推进了计算机视觉研究。
得知获奖后,论文一作、英伟达首席研究科学家 Tsung-Yi Lin 在社交媒体上表示,「我对多模态理解和生成的未来感到兴奋 —— 数据仍将是关键,而我们才刚刚开始。」
摘要:Microsoft COCO (Common Objects in Context) 数据集的目标是通过将物体识别问题置于更广泛的场景理解背景中,来推进物体识别技术的发展。为实现这一目标,研究者收集了包含日常场景中常见物体的复杂图像,这些物体都处于自然的环境中。
数据集使用实例级分割标注来帮助精确定位物体。它包含了 91 种 4 岁儿童容易识别的物体类型,总共有 328,000 张图像,2.5 百万个标注实例。数据集的创建过程利用了新颖的用户界面,通过众包方式进行类别检测、实例定位和实例分割。
研究者还提供了与 PASCAL、ImageNet 和 SUN 等数据集的详细统计比较。此外,他们使用可变形部件模型(Deformable Parts Model)提供了边界框和分割检测结果的基准性能分析。
COCO 数据集的创新之处在于关注日常场景中的常见物体,强调了物体与环境的关系;使用实例级分割标注,提高了物体定位的精确度;数据集规模大,覆盖面广,有助于训练更强大的模型;通过众包和创新的标注工具,保证了数据的质量和多样性。这些特点使 COCO 成为计算机视觉领域,特别是在物体检测、实例分割和场景理解方面的重要基准数据集,推动了相关技术的快速发展。
论文地址 https://arxiv.org/abs/1405.0312
Everingham 奖
该奖项旨在纪念 Mark Everingham,鼓励其他人向他学习,推进整个计算机视觉社区进一步发展。PAMI Everingham 奖授予对计算机视觉社区做出无私贡献的研究者或研究团队,由 IEEE 计算机协会模式分析与机器智能(PAMI)技术委员会颁发。
本届获奖者有两个。
一个是人脸属性数据集 CelebA 团队,成员包括 Ziwei Liu、Ping Luo、Xiaogang Wang 和 Xiaoou Tang。
获奖原因,该团队开发了「一系列数据集,加速了生成式图像建模和许多其他任务的进展。」
CelebA,全称为 CelebFaces Attributes Dataset,一个专为人脸属性识别和分析设计的大规模数据集,由香港中文大学的研究团队开放提供。它包含超过 20 万张名人图像,每张图像都附有 40 个二进制属性注释。这些属性包括但不限于性别、年龄、发型、是否佩戴眼镜等,为研究者提供了丰富的数据样本和详细的标注信息。
另一位本届获奖者是 David Forsyth,因其持续在监督计算机视觉界的会议和期刊方面提供建议和智慧。
David A. Forsyth,出生于南非的美国计算机科学家,是伊利诺伊大学厄巴纳・香槟分校终身教授、计算机视觉领域顶级科学家。现任伊利诺伊州立大学香槟分校正教授、Fulton-Watson-Copp 计算机科学专业主席。
Forsyth 发表了 100 多篇关于计算机视觉、计算机图形学和机器学习的论文。他于 2000 年担任 IEEE 计算机视觉和模式识别项目联合主席、IEEE CVPR 2006 项目联合主席、ECCV 2008 项目联合主席、IEEE CVPR 2011 项目联合主席、IEEE CVPR 2015 项目联合主席和 IEEE CVPR 2024 项目委员顾问。他是所有主要计算机视觉国际会议的程序委员会的正式成员。他在国际计算机视觉会议和欧洲计算机视觉会议上获得了最佳论文奖。Forsyth 的研究兴趣还包括图形和机器学习,他曾担任 ICML 2008 的委员会成员。