腾讯混元发布图生视频模型HunyuanVideo-I2V，并上线对口型等玩法

2025-03-06 04:34

腾讯宣布开源其新研发的图像转视频生成框架 ——HunyuanVideo-I2V。该模型的发布是在其成功开源 HunyuanVideo 之后的又一重要进展，旨在推动开放源代码社区的深入探索。 HunyuanVideo-I2V 结合了先进的视频生成技术，能够将静态图像转换为生动的视频内容，为创作者提供了更多的可能性。

腾讯宣布开源其新研发的图像转视频生成框架 ——HunyuanVideo-I2V。该模型的发布是在其成功开源 HunyuanVideo 之后的又一重要进展，旨在推动开放源代码社区的深入探索。

HunyuanVideo-I2V 结合了先进的视频生成技术，能够将静态图像转换为生动的视频内容，为创作者提供了更多的可能性。用户只需上传一张图片，并简单描述希望画面的动态效果，便可以生成一段五秒的短视频。这款模型的特点在于它不仅能让静态图片 “动起来”，还能够自动配上背景音效，极大地增强了视频的趣味性和吸引力。

HunyuanVideo-I2V 利用了一个预训练的多模态大语言模型作为文本编码器，显著增强了模型对输入图像语义内容的理解能力。这意味着，用户输入的图像能够通过模型生成语义图像标记，这些标记与视频潜在标记相结合，从而实现更全面的全注意力计算。通过这种方式，系统能够最大限度地发挥图像和文本模态之间的协同作用，确保从静态图像生成的视频内容更具连贯性和真实感。

为了让更多用户体验这一功能，混元 AI 视频官网已经上线，用户可以直接访问网站进行操作。此外，企业和开发者也可以通过腾讯云申请 API 接口，将该技术融入自己的应用中。这款图生视频模型是混元文生视频模型开源工作的延续，模型总参数量达 130 亿，适合生成多种类型的角色和场景，涵盖写实视频、动漫角色和 CGI 角色等。

在具体使用过程中，用户还可以上传人物图片，并输入希望其 “对口型” 的文字或音频，系统就能够让图片中的人物 “说话” 或 “唱歌”。与此同时，混元还推出了 “动作驱动” 功能，用户可以一键生成相应的舞蹈视频，提升创作的多样性和趣味性。

值得一提的是，此次开源的图生视频模型已经在 Github 和 HuggingFace 等主流开发者社区发布，开发者可以下载相关内容进行试验与开发。开源内容包括模型的权重、推理代码以及 LoRA 训练代码，这些都为开发者提供了更多的可能性，以便在此基础上训练专属的 LoRA 模型。

自开源以来，混元视频生成模型的热度不断上升，去年 12 月更是登顶 HuggingFace 的全站趋势榜第一，Github 上的 Star 数已超过 8.9K。许多开发者也积极为 Hunyuanvideo 制作插件与衍生模型，目前已经积累超过 900 个衍生版本。早前开源的混元 DiT 文生图模型同样表现不俗，衍生模型数量达 1600 多个。

官网：https://video.hunyuan.tencent.com/

github：https://github.com/Tencent/HunyuanVideo-I2V

huggingface：https://huggingface.co/tencent/HunyuanVideo-I2V

腾讯混元文生图大模型开源训练代码，发布LoRA与ControlNet插件

6月21日，腾讯混元文生图大模型（以下简称为混元DiT模型）宣布全面开源训练代码，同时对外开源混元DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。这意味着，全球的企业与个人开发者、创作者们，都可以基于混元DiT训练代码进行精调，创造更具个性化的专属模型，进行更大自由度的创作；或基于混元DiT的代码进行修改和优化，基于此构建自身应用，推动技术的快速迭代和创新。作为中文原生模型，用户在通过混元DiT的训练代码进行精调时，可以直接使用中文的数据与标签，无需再将数据翻译成英文。此前，腾讯混元文生图大

6/21/2024 2:04:00 PM

新闻助手

近1.4万星，腾讯混元大模型开源成绩单公布，多次登顶开源趋势热榜

记者获悉，腾讯云副总裁，腾讯混元大模型负责人刘煜宏在2024开放原子开发者大会暨首届开源技术学术大会上表示，腾讯将开源协同作为公司的核心技术战略，积极推动内外部技术开源共享。腾讯混元大模型语言大模型、文生图大模型、文生3D大模型以及文生视频大模型等多个模态模型均已开源，未来大模型各版本也将进一步开源，与社区开发者一起共同推动技术生态繁荣发展。（腾讯云副总裁，腾讯混元大模型负责人刘煜宏）腾讯混元大模型的开源模型已经全面覆盖文生文、文生图、文生3D以及文生视频多个模态，是开源系列模型中较全的，其模型性能也得到了开源社区的高度认可，总GitHub Star（星星）数量近1.4万颗，并且多次登顶趋势榜。

12/24/2024 11:17:00 AM

新闻助手

腾讯联合中山大学、港科大推出图生视频模型“Follow-Your-Pose-v2”

腾讯混元团队联合中山大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Pose-v2”，相关成果已经发表在 arxiv 上（IT之家附 DOI:10.48550/arXiv.2406.03035）。据介绍，“Follow-Your-Pose-v2”只需要输入一张人物图片和一段动作视频，就可以让图片上的人跟随视频上的动作动起来，生成视频长度可达 10 秒。与此前推出的模型相比，“Follow-Your-Pose-v2”可以在推理耗时更少的情况下，支持多人视频动作生成。此外，该模型具备较强的泛化能力，

6/7/2024 6:08:29 PM

问舟

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

腾讯混元发布图生视频模型HunyuanVideo-I2V，并上线对口型等玩法

相关资讯

腾讯混元文生图大模型开源训练代码，发布LoRA与ControlNet插件

近1.4万星，腾讯混元大模型开源成绩单公布，多次登顶开源趋势热榜

腾讯联合中山大学、港科大推出图生视频模型“Follow-Your-Pose-v2”