Meta AI 发布新型视频学习模型V-JEPA ：视频理解新突破

2025-02-24 10:02

近日，Meta AI 团队推出了视频联合嵌入预测架构（V-JEPA）模型，这一创新举措旨在推动机器智能的发展。人类能够自然而然地处理来自视觉信号的信息，进而识别周围的物体和运动模式。机器学习的一个重要目标是揭示促使人类进行无监督学习的基本原理。

近日，Meta AI 团队推出了视频联合嵌入预测架构（V-JEPA）模型，这一创新举措旨在推动机器智能的发展。人类能够自然而然地处理来自视觉信号的信息，进而识别周围的物体和运动模式。机器学习的一个重要目标是揭示促使人类进行无监督学习的基本原理。研究人员提出了一个关键假设 —— 预测特征原则，认为连续感官输入的表示应该能够相互预测。

早期的研究方法通过慢特征分析和谱技术来保持时间一致性，防止表示崩溃。而现在的许多新方法则结合了对比学习和掩蔽建模，确保表示能够在时间上不断演变。现代技术不仅专注于时间不变性，还通过训练预测网络来映射不同时间步的特征关系，从而提升了表现。针对视频数据，时空掩蔽的应用进一步提高了学习表示的质量。

Meta 的研究团队与多所知名机构合作，开发了 V-JEPA 模型。这一模型以特征预测为核心，专注于无监督的视频学习，与传统方法不同的是，它不依赖于预训练编码器、负样本、重建或文本监督。V-JEPA 在训练过程中使用了两百万个公共视频，并在运动和外观任务上取得了显著的表现，且无需微调。

V-JEPA 的训练方法是通过视频数据构建对象中心的学习模型。首先，神经网络从视频帧中提取对象中心的表示，捕捉运动和外观特征。这些表示通过对比学习得到进一步增强，以提升对象的可分性。接下来，基于变压器的架构处理这些表示，以模拟对象之间的时间交互。整个框架经过大规模数据集的训练，以优化重建准确性和跨帧一致性。

V-JEPA 在与像素预测方法的比较中表现优越，特别是在冻结评估中，除了在 ImageNet 分类任务中稍显不足。经过微调后，V-JEPA 在使用更少的训练样本的情况下，超越了基于 ViT-L/16模型的其他方法。V-JEPA 在运动理解和视频任务上表现出色，训练效率更高，且在低样本设置下仍然能够保持准确性。

这项研究展示了特征预测作为无监督视频学习独立目标的有效性，V-JEPA 在各类图像和视频任务中表现出色，并且在无需参数适应的情况下超越了以往的视频表示方法。V-JEPA 在捕捉细微运动细节方面具有优势，显示出其在视频理解中的潜力。

论文:https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/

博客:https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

划重点:
📽️ V-JEPA 模型是 Meta AI 推出的一种新型视频学习模型，专注于无监督的特征预测。
🔍 该模型不依赖于传统的预训练编码器和文本监督，直接从视频数据中学习。
⚡ V-JEPA 在视频任务和低样本学习中表现出色，显示出其高效的训练能力和强大的表示能力。

Meta AI 推脑机接口模型Brain2Qwerty，可通过脑电波解码打字内容

在脑 - 机接口（BCI）技术日益发展的今天，Meta AI 最新推出的 Brain2Qwerty 模型为这一领域带来了新的希望。 BCI 旨在为有言语或运动障碍的人群提供沟通手段，但传统的方法通常需要侵入性手术，比如植入电极，这不仅存在医疗风险，还需要长期维护。因此，研究者们开始探索非侵入性的替代方案，尤其是基于脑电图(EEG)的方法。

2/10/2025 9:40:00 AM

AI在线

Meta AI推出MILS系统教导 LLMs无需专门培训即可处理多媒体数据

Meta AI的研究人员与学术伙伴共同开发了一种创新系统——MILS（多模态迭代LLM求解器），该系统能在无需经过专门训练的情况下，教大型语言模型处理图像、视频和音频。 MILS依赖于语言模型的自然问题解决能力，而非大量的数据训练，展现了其独特的优势。 MILS的工作原理是通过将两个AI模型配对来进行任务解决:一个是“生成器”，负责提出任务解决方案，另一个是“评分器”，用来评估生成方案的效果。

2/10/2025 11:04:00 AM

AI在线

Meta AI时隔近一年重返欧洲，率先开放文本对话功能

在暂停近一年后，Meta宣布其AI聊天机器人Meta AI已重新登陆欧洲市场。从本周开始，Meta AI将在包括41个欧洲国家和21个海外地区的WhatsApp、Facebook、Instagram和Messenger四大平台上推出，但初期阶段仅限于基于文本的聊天功能。 Meta AI最初于2023年在美国推出。

3/20/2025 3:00:50 PM

AI在线

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

Meta AI 发布新型视频学习模型V-JEPA ：视频理解新突破

相关资讯

​Meta AI 推脑机接口模型Brain2Qwerty，可通过脑电波解码打字内容

Meta AI推出MILS系统 教导 LLMs无需专门培训即可处理多媒体数据

Meta AI时隔近一年重返欧洲，率先开放文本对话功能

Meta AI 推脑机接口模型Brain2Qwerty，可通过脑电波解码打字内容

Meta AI推出MILS系统教导 LLMs无需专门培训即可处理多媒体数据