SlowFast-LLaVA - AI在线

给视频模型安上快慢两只眼睛，苹果免训练新方法秒了一切SOTA

自从 Sora 发布以来，AI 视频生成领域变得更加「热闹」了起来。过去几个月，我们见证了即梦、Runway Gen-3、Luma AI、快手可灵轮番炸场。和以往一眼就能识破是 AI 生成的模型不太一样，这批视频大模型可能是我们所见过的「最好的一届」。然而，视频大语言模型（LLM）惊艳表现的背后离不开庞大且经过精细标注的视频数据集，这需要花费相当高的成本。近期研究领域也涌现了一批无需额外训练的创新方法：采用训练好的图像大语言模型，直接用于视频任务的处理，这样就绕开了「昂贵」的训练过程。此外，现有大多视频 LLM 存