通义万相2.1开源首尾帧生视频模型Wan2.1-FLF2V-14B

2025-04-18 08:01

阿里通义宣布开源 Wan2.1系列模型，其中包括强大的首尾帧生视频模型。这一模型采用了先进的 DiT 架构，在技术上实现了多项突破，显著降低了高清视频生成的运算成本，同时确保了生成视频在时间与空间上的高度一致性。此次开源为开发者和创作者提供了强大的工具，推动视频生成技术的发展。

阿里通义发布的 Wan2.1系列模型在多个方面进行了优化和创新。其中，高效的视频压缩 VAE 模型显著降低了运算成本，使得高清视频生成更加高效且经济。模型的 Transformer 部分基于主流的视频 DiT 结构，通过 Full Attention 机制精准捕捉长时程的时空依赖关系，确保了生成视频在时间与空间上的高度一致性。此外，首尾帧生视频模型引入了额外的条件控制分支，用户输入的首帧和尾帧作为控制条件，通过这一分支实现了流畅且精准的首尾帧变换。

微信截图_20250418075738.png

在训练及推理优化方面，通义万相首尾帧生视频模型采用了基于线性噪声轨迹的流匹配（Flow Matching）方法。在训练阶段，模型采用了数据并行(DP)与完全分片数据并行(FSDP)相结合的分布式策略，支持分辨率为720p、时长为5秒的视频切片训练。在推理阶段，模型采用了模型切分策略以及序列并行策略，显著缩短了推理时间，同时实现了 FlashAttention3INT8与 FP8混合算子以对注意力机制部分进行8比特量化，确保推理效果无损。

模型的训练分为三个阶段，逐步提升能力。第一阶段使用与基模型相同的数据集，在480p 分辨率下进行图生视频、任意位置插帧、视频续写等任务的混合训练。第二阶段构建专门用于首尾帧模式的训练数据，筛选出首尾帧差异较大的视频片段，专注于优化首尾帧生成能力。第三阶段采用高精度数据集，在720p 分辨率下完成最终训练，确保生成视频的细节复刻与动作流畅性达到最佳水平。

基于通义万相首尾帧生视频模型的强大能力，它不仅能完美复刻输入图像的细节，还能生成具有生动真实动作的视频。目前，通义万相首尾帧生视频模型已同步在 GitHub 开源，欢迎广大开发者与创作者试用并提出宝贵意见。开源地址如下:

- GitHub:https://github.com/Wan-Video/Wan2.1

- Hugging Face:https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P

- Modelscope:https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P

通义万相开源视频生成模型Wan2.1：8.2G显存即可生成480P视频

近日，通义宣布开源其最新的通义万相大模型 Wan2.1。 Wan2.1是一款专注于高质量视频生成的 AI 模型，凭借其在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面的卓越表现，成为了创作者、开发者和企业用户拥抱 AI 时代的首选工具。在权威评测集 Vbench 中，通义万相 Wan2.1以总分86.22% 的成绩登顶榜首，大幅领先国内外其他知名视频生成模型，如 Sora、Minimax、Luma、Gen3和 Pika 等。

2/26/2025 7:58:00 AM

AI在线

阿里开源视频生成模型Wan 2.1上线即屠榜 4070可流畅运行

近日，阿里巴巴在深夜推出了全新的开源视频生成模型 Wan2.1，该模型凭借14B 的参数量迅速占据了 VBench 榜单的顶端，成为目前视频生成领域的佼佼者。与此之前发布的 QwQ-Max 不同，Wan2.1在复杂运动的细节处理上表现出色，能够流畅地实现多个人物的同步舞蹈，令人惊叹不已。官方演示中，Wan2.1不仅成功克服了静态图像生成中的难题，如文字的处理更是达到了新的高度。

2/27/2025 10:08:00 AM

AI在线

超强视频生成模型 Wan2.1 GP：低配GPU也能搞定大片！

近日，DeepBeepMeep 团队在 GitHub 上发布了 Wan2.1GP，一个针对低端 GPU 用户优化的视频生成模型。该模型基于阿里巴巴的 Wan2.1，旨在为缺乏高性能 GPU 资源的用户提供强大的视频生成能力。 Wan2.1GP 的推出标志着视频生成技术的一个重要进步，尤其是在开放源代码领域。

3/4/2025 11:50:00 AM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

通义万相2.1开源首尾帧生视频模型Wan2.1-FLF2V-14B

相关资讯

通义万相开源视频生成模型Wan2.1：8.2G显存即可生成480P视频

阿里开源视频生成模型Wan 2.1上线即屠榜 4070可流畅运行

超强视频生成模型 Wan2.1 GP：低配GPU也能搞定大片！