Meta AI 发布新型视频学习模型V-JEPA :视频理解新突破

近日,Meta AI 团队推出了视频联合嵌入预测架构(V-JEPA)模型,这一创新举措旨在推动机器智能的发展。 人类能够自然而然地处理来自视觉信号的信息,进而识别周围的物体和运动模式。 机器学习的一个重要目标是揭示促使人类进行无监督学习的基本原理。

近日,Meta AI 团队推出了视频联合嵌入预测架构(V-JEPA)模型,这一创新举措旨在推动机器智能的发展。人类能够自然而然地处理来自视觉信号的信息,进而识别周围的物体和运动模式。机器学习的一个重要目标是揭示促使人类进行无监督学习的基本原理。研究人员提出了一个关键假设 —— 预测特征原则,认为连续感官输入的表示应该能够相互预测。

QQ_1740362456122.png

早期的研究方法通过慢特征分析和谱技术来保持时间一致性,防止表示崩溃。而现在的许多新方法则结合了对比学习和掩蔽建模,确保表示能够在时间上不断演变。现代技术不仅专注于时间不变性,还通过训练预测网络来映射不同时间步的特征关系,从而提升了表现。针对视频数据,时空掩蔽的应用进一步提高了学习表示的质量。

Meta 的研究团队与多所知名机构合作,开发了 V-JEPA 模型。这一模型以特征预测为核心,专注于无监督的视频学习,与传统方法不同的是,它不依赖于预训练编码器、负样本、重建或文本监督。V-JEPA 在训练过程中使用了两百万个公共视频,并在运动和外观任务上取得了显著的表现,且无需微调。

V-JEPA 的训练方法是通过视频数据构建对象中心的学习模型。首先,神经网络从视频帧中提取对象中心的表示,捕捉运动和外观特征。这些表示通过对比学习得到进一步增强,以提升对象的可分性。接下来,基于变压器的架构处理这些表示,以模拟对象之间的时间交互。整个框架经过大规模数据集的训练,以优化重建准确性和跨帧一致性。

QQ_1740362382811.png

V-JEPA 在与像素预测方法的比较中表现优越,特别是在冻结评估中,除了在 ImageNet 分类任务中稍显不足。经过微调后,V-JEPA 在使用更少的训练样本的情况下,超越了基于 ViT-L/16模型的其他方法。V-JEPA 在运动理解和视频任务上表现出色,训练效率更高,且在低样本设置下仍然能够保持准确性。

这项研究展示了特征预测作为无监督视频学习独立目标的有效性,V-JEPA 在各类图像和视频任务中表现出色,并且在无需参数适应的情况下超越了以往的视频表示方法。V-JEPA 在捕捉细微运动细节方面具有优势,显示出其在视频理解中的潜力。

论文:https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/

博客:https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

划重点:  

📽️ V-JEPA 模型是 Meta AI 推出的一种新型视频学习模型,专注于无监督的特征预测。  

🔍 该模型不依赖于传统的预训练编码器和文本监督,直接从视频数据中学习。  

⚡ V-JEPA 在视频任务和低样本学习中表现出色,显示出其高效的训练能力和强大的表示能力。

相关资讯

​Meta AI 推脑机接口模型Brain2Qwerty,可通过脑电波解码打字内容

在脑 - 机接口(BCI)技术日益发展的今天,Meta AI 最新推出的 Brain2Qwerty 模型为这一领域带来了新的希望。 BCI 旨在为有言语或运动障碍的人群提供沟通手段,但传统的方法通常需要侵入性手术,比如植入电极,这不仅存在医疗风险,还需要长期维护。 因此,研究者们开始探索非侵入性的替代方案,尤其是基于脑电图(EEG)的方法。

Meta AI推出MILS系统 教导 LLMs无需专门培训即可处理多媒体数据

Meta AI的研究人员与学术伙伴共同开发了一种创新系统——MILS(多模态迭代LLM求解器),该系统能在无需经过专门训练的情况下,教大型语言模型处理图像、视频和音频。 MILS依赖于语言模型的自然问题解决能力,而非大量的数据训练,展现了其独特的优势。 MILS的工作原理是通过将两个AI模型配对来进行任务解决:一个是“生成器”,负责提出任务解决方案,另一个是“评分器”,用来评估生成方案的效果。

本地构建Llama 3.2-Vision多模态LLM聊天应用实战

译者 | 朱先忠审校 | 重楼本文将以实战案例探讨如何在类似聊天的模式下从本地构建Llama3.2-Vision模型,并在Colab笔记本上探索其多模态技能。 简介视觉功能与大型语言模型(LLM)的集成正在通过多模态LLM(MLLM)彻底改变计算机视觉领域。 这些模型结合了文本和视觉输入,在图像理解和推理方面表现出令人印象深刻的能力。