腾讯混元发布并开源图生视频模型：可生成 5 秒短视频，还能自动配上背景音效

2025-03-06 04:28

腾讯混元发布图生视频模型并对外开源，同时上线对口型与动作驱动等玩法，并支持生成背景音效及 2K 高质量视频。基于图生视频的能力，用户只需上传一张图片，并简短描述希望画面如何运动、镜头如何调度等，混元即可按要求让图片动起来，变成 5 秒的短视频，还能自动配上背景音效。

感谢AI在线从腾讯混元微信公众号获悉，腾讯混元发布图生视频模型并对外开源，同时上线对口型与动作驱动等玩法，并支持生成背景音效及 2K 高质量视频。

基于图生视频的能力，用户只需上传一张图片，并简短描述希望画面如何运动、镜头如何调度等，混元即可按要求让图片动起来，变成 5 秒的短视频，还能自动配上背景音效。此外，上传一张人物图片，并输入希望“对口型”的文字或音频，图片中的人物即可“说话”或“唱歌”；使用“动作驱动”能力，还能一键生成同款跳舞视频。

目前用户通过混元 AI 视频官网（https://video.hunyuan.tencent.com/）即可体验，企业和开发者可在腾讯云申请使用 API 接口使用。

此次开源的图生视频模型，是混元文生视频模型开源工作的延续，模型总参数量保持 130 亿，模型适用于多种类型的角色和场景，包括写实视频制作、动漫角色甚至 CGI 角色制作的生成。

开源内容包含权重、推理代码和 LoRA 训练代码，支持开发者基于混元训练专属 LoRA 等衍生模型。目前在 Github、HuggingFace 等主流开发者社区均可下载体验。

混元开源技术报告披露，混元视频生成模型具备灵活的扩展性，图生视频和文生视频在相同的数据集上开展预训练工作。在保持超写实画质、流畅演绎大幅度动作、原生镜头切换等特性的基础上，让模型能够捕捉到丰富的视觉和语义信息，并结合图像、文本、音频和姿态等多种输入条件，实现对生成视频的多维度控制。

目前，混元开源系列模型已经完整覆盖文本、图像、视频和 3D 生成等多个模态，在 Github 累计获得超 2.3 万开发者关注和 star。

附：混元图生视频开源链接

Github：https://github.com/Tencent/HunyuanVideo-I2V

Huggingface：https://huggingface.co/tencent/HunyuanVideo-I2V

腾讯混元 3D 生成大模型 2.0 开源发布，同步上线“业界首个一站式 3D 内容 AI 创作平台”

腾讯今日官宣开源上线混元 3D 生成大模型 2.0。腾讯混元还同步上线混元 3D AI 创作引擎，号称是“业界首个一站式 3D 内容 AI 创作平台”。

1/21/2025 3:33:19 PM

汪淼

腾讯混元新一代快思考模型 Turbo S 发布，支持“秒回”

腾讯官方表示，区别于 Deepseek R1、混元 T1 等需要“想一下再回答”的慢思考模型，混元 Turbo S 能够实现“秒回”，更快速输出答案，吐字速度提升一倍，首字时延降低 44%。

2/27/2025 5:38:29 PM

汪淼

QQ浏览器推出AI问答功能“元宝快答”：基于混元快思考模型Turbo S

3月7日，QQ浏览器宣布推出AI问答功能——“元宝快答”，旨在为用户提供更快速、更精炼的搜索答案体验。该功能基于腾讯混元的“快思考”模型Turbo S，结合了搜索增强技术，能够快速检索全网实时信息，包括公众号等优质内容，并自动提炼重点，为用户提供简洁明了的回答。用户在QQ浏览器的手机或电脑端，通过搜狗搜索或全网搜索模式提问时，元宝快答能够在瞬间给出答案，极大地提升了搜索效率。

3/10/2025 8:43:00 AM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

腾讯混元发布并开源图生视频模型：可生成 5 秒短视频，还能自动配上背景音效

相关资讯

腾讯混元 3D 生成大模型 2.0 开源发布，同步上线“业界首个一站式 3D 内容 AI 创作平台”

腾讯混元新一代快思考模型 Turbo S 发布，支持“秒回”

QQ浏览器推出AI问答功能“元宝快答”：基于混元快思考模型Turbo S