快手联合推出 Pyramid Flow 开源文生视频 AI 模型:最高 10 秒 768P@24fps,创新金字塔流匹配让推理 tokens 降至 1/4

由快手科技、北京大学和北京邮电大学联合组建的研究团队推出 Pyramid Flow 文生视频模型,用户在输入文本之后,即可生成最长 10 秒、分辨率高达 1280x768、帧率 24fps 的高质量视频。Pyramid Flow 文生视频模型主要面向开发者、艺术家和创作者等,提供更高效、更灵活的视频生成解决方案,目前已经在 Hugging Face 平台上线,并完全开源。 AI在线查询官方介绍,附上 Pyramid Flow 的核心特点如下:高效生成:Pyramid Flow 采用新技术,通过统一 AI 模型分阶段生成视频,大多数阶段为低分辨率,只有最后阶段为全分辨率。

由快手科技、北京大学和北京邮电大学联合组建的研究团队推出 Pyramid Flow 文生视频模型,用户在输入文本之后,即可生成最长 10 秒、分辨率高达 1280x768、帧率 24fps 的高质量视频。

Pyramid Flow 文生视频模型主要面向开发者、艺术家和创作者等,提供更高效、更灵活的视频生成解决方案,目前已经在 Hugging Face 平台上线,并完全开源。

AI在线查询官方介绍,附上 Pyramid Flow 的核心特点如下:

  • 高效生成:Pyramid Flow 采用新技术,通过统一 AI 模型分阶段生成视频,大多数阶段为低分辨率,只有最后阶段为全分辨率。这种“金字塔流匹配”方法保持了视频的高视觉质量前提下,大幅降低了计算成本,tokens 数量是传统 diffusion 模型的四分之一。

  • 快速推理:在推理过程中,该模型可以在 56 秒内生成一个 5 秒、384p 的视频,速度媲美许多全序列 diffusion 模型,甚至更快。

  • 开源和商业使用:Pyramid-Flow 在 MIT 许可证下发布,允许广泛的使用,包括商业应用、修改和再分发,吸引了希望将模型集成到专有系统中的开发者和公司。

AI在线附上参考地址

  • Pyramidal Flow Matching for Efficient Video Generative Modeling

  • New high quality AI video generator Pyramid Flow launches — and it’s fully open source!

  • Hugging Face

  • Github

  • Pyramidal Flow Matching for Efficient Video Generative Modeling

相关资讯

史上首个实时AI视频生成技术:DiT通用,速度提升10.6倍

DiT 都能用,生成视频无质量损失,也不需要训练。实时 AI 视频生成来了!本周三,新加坡国立大学尤洋团队提出了业内第一种可以实时输出的,基于 DiT 的视频生成方法。该技术名为 Pyramid Attention Broadcast (PAB)。通过减少冗余注意力计算,PAB 实现了高达 21.6 FPS 的帧率和 10.6 倍的加速,同时不会牺牲包括 Open-Sora、Open-Sora-Plan 和 Latte 在内的流行基于 DiT 的视频生成模型的质量。值得注意的是,作为一种不需要训练的方法,PAB 可

字节跳动提速 AI:Flow 部门下设四大业务线,挖角大批百度阿里员工

3 月 25 日下午消息,近日,字节跳动推出 AI 角色互动 App“话炉”,从而引发外界对其探索 AI 社交赛道的关注。据了解,“话炉”由字节跳动的 Flow 部门打造。新浪科技独家获悉,Flow 部门隶属于字节跳动的产品研发与工程部(内部简称“PDI”),目前下设四大业务线,包括 AI 教育、国际化、社区和豆包,“话炉”则属于社区业务线旗下。在今年 1 月的 2024 年年度全员会上,字节跳动 CEO 梁汝波提到,公司直到 2023 年才开始讨论 GPT,而业内做得比较好的大模型创业公司都是在 2018 年至

扩散模型、最优传输存在什么关系?法国数学家4页论文引网友围观

扩散模型和最优传输之间到底存在怎样的联系? 对很多人来说还是一个未解之谜。 但有一点很清楚的是:在相似的数据集上训练的不同扩散模型倾向于恢复出相似的映射关系。