视频理解

多榜单登顶！华为 & 哈工深团队提出 AdaReTaKe，突破长视频理解极限

第一作者为哈尔滨工业大学（深圳）博士生王霄和华为大模型研究员佀庆一，该工作完成于王霄在华为实习期间。王霄的研究方向为多模态视频理解和生成，佀庆一的研究方向为多模态理解、LLM post-training和高效推理。随着视频内容的重要性日益提升，如何处理理解长视频成为多模态大模型面临的关键挑战。

4/4/2025 1:39:00 PM

机器之心

PVUW视频分割Workshop@CVPR 2025 | 征稿！比赛！

第四届真实世界下的像素级视频理解挑战赛（The 4th PVUW challenge）主页/Call for Paper：：复杂场景视频目标分割挑战赛（MOSE Challenge）：参赛、数据集下载：：基于动作描述的指向性视频分割挑战赛（MeViS Challenge）：参赛、数据集下载：真实世界下的像素级视频理解（Pixel-level Video Understanding in the Wild, PVUW）挑战赛将于 CVPR 2025 期间在美国田纳西州纳什维尔的 Music City Center 举办。像素级场景理解是计算机视觉中的核心问题之一，旨在识别图像中每个像素的类别、掩码和语义。然而，现实世界是动态的，基于视频的，而非静态的图像状态，因此学习进行视频分割对于实际应用来说更为合理和实用。

3/3/2025 4:37:00 PM

新闻助手

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶文本搜索字节跳动大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练 DeepMind