百元成本炼成开源视频模型Pusa：基于Mochi微调，低成本复现高质量

2025-04-14 10:01

人工智能（AI）驱动的视频生成技术正快速发展，近日，一款名为 Pusa 的开源视频模型引起了业界的关注。该模型基于领先的开源视频生成系统 Mochi 进行微调，不仅展现了尚可的效果，更重要的是，完全开源了包括训练工具、数据集在内的整个微调过程，且训练成本仅为约100美元，为视频生成领域的研究和应用带来了新的可能性。基于Mochi微调，初步展现视频生成能力Pusa-V0.5是 Pusa 模型的早期预览版本，其基础模型是 Artificial Analysis Leaderboard 上领先的开源视频生成系统 Mochi1-Preview。

人工智能（AI）驱动的视频生成技术正快速发展，近日，一款名为 Pusa 的开源视频模型引起了业界的关注。该模型基于领先的开源视频生成系统 Mochi 进行微调，不仅展现了尚可的效果，更重要的是，完全开源了包括训练工具、数据集在内的整个微调过程，且训练成本仅为约100美元，为视频生成领域的研究和应用带来了新的可能性。

基于Mochi微调，初步展现视频生成能力

Pusa-V0.5是 Pusa 模型的早期预览版本，其基础模型是 Artificial Analysis Leaderboard 上领先的开源视频生成系统 Mochi1-Preview。通过对 Mochi 进行微调，Pusa 能够支持多种视频生成任务，包括 文本到视频生成、图像到视频转换、帧插值、视频过渡、无缝循环、扩展视频生成等。尽管目前生成的视频分辨率相对较低（480p），但其在运动保真度和提示遵循性方面表现出了潜力。

完全开源微调流程，助力社区共同发展

Pusa 项目最引人注目的特点之一是其完全开源性。开发者不仅可以获取 完整的代码库和详细的架构规范，还能了解到 全面的训练方法。这意味着研究人员和开发者可以深入了解 Pusa 的微调过程，复现实验，并在此基础上进行进一步的创新和改进。这种开放的态度无疑将极大地促进社区的合作与发展。

令人惊讶的低成本训练

与动辄花费数万甚至数十万美元训练的大型视频模型相比，Pusa 的训练成本显得格外引人注目。据介绍，Pusa 仅使用了 16块 H800GPU，在约500次迭代后完成训练，总训练时长仅0.1k H800GPU 小时，总成本约为0.1k 美元（即100美元）。如此低的训练成本，为更多研究机构和个人开发者参与到视频模型的研究和开发中提供了机会。项目团队也表示，通过单节点训练和更高级的并行技术，效率还可以进一步提高。

Pusa 采用了帧级噪声控制与向量化时间步的新颖扩散范式，这一方法最初在 FVDM 论文中提出，为视频扩散建模带来了前所未有的灵活性和可扩展性。此外，Pusa 对基础模型进行的调整是非破坏性的，这意味着它保留了原始 Mochi 的文本到视频生成能力，只需进行轻微的微调即可。

项目:https://top.aibase.com/tool/pusa

真·赛博菩萨！最大的开源视频模型来了，我们实测：有点东西，但不多

AI好好用报道编辑：杨文目前发布的最大的开源视频生成模型。 Genmo 当了一回「赛博菩萨」。昨晚，AI 视频生成公司 Genmo 推出了最新的视频生成模型 Mochi 1 ，并且大手一挥，直接给开源了。

10/23/2024 6:20:00 PM

AI好好用

FlashVideo开创视频生成新范式:预览速度与画质双重突破

一项创新的视频生成技术FlashVideo日前宣布开源，该框架通过独特的双阶段设计，巧妙解决了AI视频生成中速度与质量的平衡问题。 FlashVideo采用了类似于网页前端LQIP（低质量图像占位符）的思路，将视频生成过程分为预览和质量增强两个阶段。在预览阶段，系统能以极低的计算成本快速生成视频草稿，让用户得到即时反馈，显著提升了用户体验和商业应用可行性。

2/12/2025 10:10:00 AM

AI在线

Adobe Firefly AI视频生成工具公测:轻松将文字与图像转化为短视频

近日，Adobe 正式推出其 AI 视频生成工具 Firefly Video 的公开测试版本，允许用户将文本和图像转化为时长最长5秒的短视频，视频分辨率为1080p，帧率为每秒24帧。该工具的推出，标志着 Adobe 在视频生成领域迈出了重要一步，用户可以通过简单的文字指令或者上传图片，快速生成精美的视频内容。 Firefly Video 的用户界面友好，允许用户对生成的视频进行多项调整。

2/13/2025 9:07:00 AM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部