329篇图像、视频生成论文，今年CVPR最火的钻研中心是这些

图像与视频合成、3D 视觉、人体行为辨认、视觉与谈话推理等钻研偏向论文最多，属于最热门的偏向，体现当前学界对视觉生成、三维感知、人机交互等偏向的高度重视。另外，多模态学习、以人为本的设计和自适应机器人可能构成人形机器人的未来。一年一度的计算机视觉和模式辨认会议（CVPR）一直是 CV 界前沿钻研的灯塔。CVPR 2024 任用结果显示，今年共有 2719 篇论文被接收，任用率 23.6%。那么大模型时代，今年的钻研中心有哪些变化？最近，乔治亚理工学院计算机学院（College of Computing, Georg

图像与视频合成、3D 视觉、人体行为辨认、视觉与谈话推理等钻研偏向论文最多，属于最热门的偏向，体现当前学界对视觉生成、三维感知、人机交互等偏向的高度重视。另外，多模态学习、以人为本的设计和自适应机器人可能构成人形机器人的未来。

一年一度的计算机视觉和模式辨认会议（CVPR）一直是 CV 界前沿钻研的灯塔。

CVPR 2024 任用结果显示，今年共有 2719 篇论文被接收，任用率 23.6%。

那么大模型时代，今年的钻研中心有哪些变化？

最近，乔治亚理工学院计算机学院（College of Computing, Georgia Institute of Technology）对 CVPR 2024 任用数据的统计分析，直观呈现了当前计算机视觉范围的钻研热点分布情况。

329篇图像、视频生成论文，今年CVPR最火的钻研中心是这些

图表显示，论文中心涵盖 36 个中心范围。

从中心分布来看，论文数量最多的是图像和视频合成与生成（Image and video synthesis and generation）中心，一共 329 篇。

其次是三维视觉（3D from multi-view and sensors），一共 276 篇，依旧延续去年顶会的热度。

事实上，上面两个偏向也是目前计算机视觉钻研的重点。

接下来，人体行为辨认（Humans: Face, body, pose, gesture, movement）一共 202 篇。该范围钻研在人机交互、机器人、监控等范围有着广泛利用。

视觉、谈话与谈话推理（Vision, language, and reasoning）一共有 152 篇。这是一个交叉钻研偏向，旨在帮助计算机像人一样懂得、关联视觉和谈话信息，完成推理、问答、决策等高层认知恣意。

数据表明，这个范围正受到学界高度关注。

比如，视觉推理，让机器具备基于视觉的逻辑推理、常识推理能力，对于智能教育、智慧法庭、辅助决策等高端利用意义重大；

视觉谈话导航，可用于室内外机器人导航、头显设备的导航、无人机巡检；

多模态信息融合 (Multimodal Fusion）实行全面、准确的场景懂得；

视觉谈话预训练模型 (Vision-Language Pretraining)，试图实行更高层次的语义懂得和恣意处理能力，为人工智能技巧的发展和利用拓展了新的边界。

底层视觉（Low-level vision）一共 131 篇。传统的辨认检测、分割等基础恣意论文数量相对减少，但仍是钻研重点。

值得一提的是，一些钻研也在探索新型视觉传感器出现后，与之相适应的新视觉数据处理和建模方法。

正如接收论文 “State Space Models for Event Cameras ” 讨论的，事件相机等技巧的发展表明，机器人感知周围环境的方式得到了显着增强。这些创新将有助于机器人、自动驾驭在复杂、动态环境中实行更好的导航和交互。

鉴于上半年人形机器人大热，我们也看了看机器人 + AI 。

数据显示，自动驾驭有 87 篇。自动驾驭是机器人范围最热门的利用偏向之一，需要视觉感知、决策规划、控制等多项 AI 技巧的支持。

机器人（Robotics) 中心一共 29 篇，涉及机器人视觉、导航、操纵等钻研，视觉感知是机器人实行智能化的关键。

比如，“DifFlow3D：Towards Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based Refinement” 探讨了提高 3D 场景懂得可靠性的方法，这对于机器人在不可预测环境中的安全操作至关重要。

Embodied vision: Active agents, simulation 一共 27 篇。看来，通过视觉、动作等多模态交互，让机器人在仿真或真实环境中学习，是一个新兴的钻研范式。

正如我们在不少视频中刚看到的，机器人也越来越多地具备同时处理多项恣意的能力。

“ManipLLM：Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation” 等论文也呈现出一种转变 —— 集成各种数据类型（文本、视觉、传感器数据）、在环境中执行复杂操作和交互的模型。

“Smart Help: Strategic Opponent Modeling for Proactive and Adaptive Robot Assistance in Households” 直接聚焦于家庭服务机器人中的对抗建模问题，旨在实行更加主动、适应性强的机器人助手。

Video: Action and event understanding，一共 78 篇。对于机器人而言，懂得视频中的动作、事件语义，对实行智能人机交互非常关键，仍然是一个核心钻研中心。

“Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives” 展示了从多个角度懂得人类行为的努力（以人为本的交互），增强了机器人学习和适应人类行为的能力。

Vision + graphics 一共 56 篇。3D 重建、渲染等技巧在机器人仿真、VR/AR 等方面有重要利用。

Vision applications and systems 一共 44 篇，机器人是视觉技巧的主要利用偏向之一。

CVPR 2024 对 AI 和机器人技巧的关注，凸显了先进计算模型、感知增强技巧以及对人类场景深度懂得等方面与机器人系统的逐步整合。这种整合正在为开发更加直觉化、功能更强、适应性更高的机器人铺平道路。

参考链接：https://public.tableau.com/views/CVPR2024/CVPRtrends?%3AshowVizHome=no&continueFlag=6a947f6367e90acd982f7ee49a495fe2

{{userData.name}}已认证

329篇图像、视频生成论文，今年CVPR最火的钻研中心是这些

支持分解一分钟高清视频，华科等提出人类舞蹈视频生成新框架UniAnimate

原作者带队，LSTM卷土重来之Vision-LSTM出世

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

关于LLM-as-a-judge范式，终于有综述讲明白了

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等

李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”

ChatGPT遇到这些人名开始自闭，OpenAI回应了

平安人寿ChatBI：大模型智能化报表的深度实践

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则