昆仑万维开源 SkyReels-V2 模型，开启生成“无限时长”视频时代

2025-04-21 03:05

其通过结合多模态大语言模型（MLLM）、多阶段预训练（Multi-stage Pretraining）、强化学习（Reinforcement Learning）和扩散强迫（Diffusion-forcing）框架来实现协同优化。

昆仑万维今日正式发布并开源 SkyReels-V2—— 全球首个使用扩散强迫（Diffusion-forcing）框架的无限时长电影生成模型，其通过结合多模态大语言模型（MLLM）、多阶段预训练（Multi-stage Pretraining）、强化学习（Reinforcement Learning）和扩散强迫（Diffusion-forcing）框架来实现协同优化。官方表示，该模型将突破视频生成技术边界，开启“无限时长电影生成”新时代。

AI在线附开源地址如下：

SkyReels-V2

GitHub 地址：https://github.com/SkyworkAI/SkyReels-V2
论文地址：https://arxiv.org/abs/2504.13074

SkyReels-A2

HuggingFace 地址：https://huggingface.co/ Skywork / SkyReels-A2
GitHub 地址：https://github.com/SkyworkAI/SkyReels-A2
论文地址：https://arxiv.org/ pdf/2504.02436

据介绍，现有技术在提升稳定的视觉质量时往往牺牲运动动态效果，为了优先考虑高分辨率而限制视频时长（通常为 5-10 秒），并且由于通用多模态大语言模型（MLLM）无法解读电影语法（如镜头构图、演员表情和摄像机运动），导致镜头感知生成能力不足。这些相互关联的限制阻碍了长视频的逼真合成和专业电影风格的生成。

为此应运而生的 SkyReels-V2 则在技术上实现了突破，还提供了多种有用的应用场景，包括故事生成、图生视频、运镜专家和多主体一致性视频生成（SkyReels-A2）。

SkyReels-V2 现已支持生成 30 秒、40 秒的视频，且具备生成高运动质量、高一致性、高保真视频的能力。

官方表示，SkyReels-V2 在运动动态方面表现优异，能够生成流畅且逼真的视频内容，满足电影制作中对高质量运动动态的需求。