AI在线 AI在线

视频理解

多榜单登顶!华为 & 哈工深团队提出 AdaReTaKe,突破长视频理解极限

第一作者为哈尔滨工业大学(深圳)博士生王霄和华为大模型研究员佀庆一,该工作完成于王霄在华为实习期间。 王霄的研究方向为多模态视频理解和生成,佀庆一的研究方向为多模态理解、LLM post-training和高效推理。 随着视频内容的重要性日益提升,如何处理理解长视频成为多模态大模型面临的关键挑战。
4/4/2025 1:39:00 PM
机器之心

PVUW视频分割Workshop@CVPR 2025 | 征稿!比赛!

第四届真实世界下的像素级视频理解挑战赛(The 4th PVUW challenge)主页/Call for Paper::复杂场景视频目标分割挑战赛(MOSE Challenge):参赛、数据集下载::基于动作描述的指向性视频分割挑战赛(MeViS Challenge):参赛、数据集下载: 真实世界下的像素级视频理解(Pixel-level Video Understanding in the Wild, PVUW)挑战赛将于 CVPR 2025 期间在美国田纳西州纳什维尔的 Music City Center 举办。 像素级场景理解是计算机视觉中的核心问题之一,旨在识别图像中每个像素的类别、掩码和语义。 然而,现实世界是动态的,基于视频的,而非静态的图像状态,因此学习进行视频分割对于实际应用来说更为合理和实用。
3/3/2025 4:37:00 PM
新闻助手
  • 1