腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

理论
12月20日
编辑

量子位

提速8倍！速度更快、效果更好的混元视频模型——FastHunyuan来了！新模型仅用1分钟就能生成5秒长的视频，比之前提速8倍，步骤也从50步减少到了6步，甚至画面细节也更逼真了。

提速8倍！

速度更快、效果更好的混元视频模型——FastHunyuan来了！

新模型仅用1分钟就能生成5秒长的视频，比之前提速8倍，步骤也从50步减少到了6步，甚至画面细节也更逼真了。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

和普通速度的混元对比一下，原来50步才能生成1条视频，而现在新模型在相同的时间里可以生成8条：

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

再来看看和Sora的画面对比，可以看到Fast-Hunyuan和Sora两者的效果都更逼真一些，衣服、水果和山峰的细节也非常清晰。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

甚至在一些物理细节的理解上，Fast-Hunyuan比Sora还强，比如下面拿取柠檬的视频：

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

更重要的是，Fast-Hunyuan的代码也开源了，这下不用为Sora的订阅费和限额发愁了。

研究团队来自加州大学圣地亚哥分校（UCSD）的Hao AI实验室，他们主要专注机器学习算法和分布式系统的研究。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

混元官方账号还特意发博感谢了他们：

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

有网友看完后直呼，混元才是最好的开源视频模型。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

开创性的视频DiT蒸馏配方

团队是如何做到8倍提速的情况下还能提升视频清晰度呢？

下面就一起来看一下Fast-Hunyuan的技术原理——

首先，他们开发了全新的视频DiT蒸馏配方。

具体来说，他们的蒸馏配方基于阶段一致性（Phased Consistency Model, PCM）模型。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

在尝试使用多阶段蒸馏后发现效果没有显著改进，最终他们选择保持单阶段设置，与原始PCM模型的配置相似。

其次，团队使用了OpenSoraPlan中的MixKit数据集进行了蒸馏。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

为了避免在训练过程中运行文本编码器和VAE，团队还预处理了所有数据，用来生成文本嵌入和VAE潜在变量。

在推理阶段，用户可以通过FSDP、序列并行和选择性激活检查点进行可扩展训练，模型可以近乎线性扩展到64个GPU。测试代码在Python 3.10.0、CUDA 12.1和H100上运行。

官方推荐使用80GB内存的GPU，不同模型有相应的下载权重和推理命令。

最低硬件要求如下：

40 GB GPU 内存，每个 GPU 配备 lora
30 GB GPU 内存，每 2 个 GPU 配备 CPU 卸载和 LoRa。

在模型微调方面，Fast-Hunyuan提供了全微调（需准备符合格式的数据，提供了一些可下载的预处理数据及对应命令）和LoRA 微调（即将上线）两种方式。

此外，他们还结合了预计算潜变量和预计算文本嵌入，用户可以根据自己的硬件条件选择不同的微调方式来执行命令，也支持图像和视频的混合微调。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

模型已于2024年12月17日发布了v0.1版本。

未来的开发计划还包括添加更多蒸馏方法（如分布匹配蒸馏）、支持更多模型（如CogvideoX模型）以及代码更新（如fp8支持、更快的加载和保存模型支持）等等。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

One More Thing

除了加速模型，混元还预告了大家都非常期待的图像到视频生成功能。

最快1月份，也就是下个月就可以看到！期待住了。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

GitHub：https://github.com/hao-ai-lab/FastVideoHuggingFace：https://huggingface.co/FastVideo/FastHunyuan

给TA打赏

共{{data.count}}人

人已打赏

AI 数据模型

腾讯云 ES：一站式 RAG 方案，开启智能搜索新时代

2024-12-20 8:13:06

计算机视觉开发者必备：十大顶尖工具深度解析

2024-12-20 9:14:31

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
2024年AI 编程现在可以做到什么程度？
12月18日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩
12月12日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部