开源全家桶又添一“元”,腾讯混元大模型公布最新进展

刚刚,腾讯混元大模型公布最新进展:正式上线视频生成能力,这是继文生文、文生图、3D生成之后的又一新里程碑。 与此同时,腾讯开源该视频生成大模型,参数量130亿,是当前最大的视频开源模型。 “用户只需要输入一段描述,即可生成视频,”腾讯混元相关负责人透露,目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。

刚刚,腾讯混元大模型公布最新进展:正式上线视频生成能力,这是继文生文、文生图、3D生成之后的又一新里程碑。与此同时,腾讯开源该视频生成大模型,参数量130亿,是当前最大的视频开源模型。

“用户只需要输入一段描述,即可生成视频,”腾讯混元相关负责人透露,目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入,目前API同步开放内测申请。

开源全家桶又添一“元”,腾讯混元大模型公布最新进展

通过腾讯元宝APP-AI应用-AI视频即可使用该功能(前期需申请)

在与国内外多个顶尖模型的评测对比显示,混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先,在人物、人造场所等场景下表现尤为出色。

开源全家桶又添一“元”,腾讯混元大模型公布最新进展

腾讯混元视频生成大模型制作出的视频画质很逼真,内容也与提示词高度一致,确保画面的流畅性,减少形变,甚至在提示词是 emoji 表情的情况下,也可以稳定输出。

例如,在处理冲浪、舞蹈等包含大幅度动作的场景时,该模型能够生成流畅且合理的动作镜头,物体形变现象得到有效控制;在处理光影反射时,它能够基本遵循物理规律,如在镜面或照镜子的场景中,能够实现镜内外动作的一致性。此外,该模型还能在保持画面主角不变的情况下自动切换镜头,这是许多其他模型所不具备的高级功能。

开源全家桶又添一“元”,腾讯混元大模型公布最新进展

视频由腾讯混元视频生成,提示词:200mm长焦镜头,对准一只停在栏杆上的海鸥。羽毛的纹理清晰可辨,前景的木栏杆温柔虚化。远处的落日和海平面融化成金红色的光影

开源全家桶又添一“元”,腾讯混元大模型公布最新进展

视频由腾讯混元视频生成,提示词:暴风雪中,一列蒸汽火车在崎岖山间穿行,黑烟从车头直冲云霄,车厢在皑皑白雪中留下深邃轨迹,镜头以侧面追踪,捕捉机械巨兽破开风雪的磅礴气势,白雾与蒸汽交织成壮丽画卷,电影氛围,远景

开源全家桶又添一“元”,腾讯混元大模型公布最新进展

视频由腾讯混元视频生成,提示词:一个隐藏的瀑布流入清澈的池塘,周围是高大的树木和绿色植物。阳光穿过树叶,在下面的岩石和水面上形成斑点。逼真,茂密森林中的宁静瀑布,宁静、阳光明媚的日子,中景

开源全家桶又添一“元”,腾讯混元大模型公布最新进展

视频由腾讯混元视频生成,提示词:一位戴着复古飞行护目镜的机械师,半跪在蒸汽朋克风格的工作室里。她棕色卷发挽成发髻,零星的银色发丝闪着金属光泽。深棕色皮质工装背带裤上沾满机油污渍,袖口卷起露出布满齿轮纹身的手臂。特写她正用黄铜工具调试一只机械鸟,齿轮间冒出缕缕蒸汽,工作台上散落着铜管、发条和老式图纸。

它采用了与Sora相似的DiT架构,并在此基础上进行了多项优化。混元的视频生成模型通过引入新一代的文本编码器,显著增强了对语义的理解和遵循能力,这使得它在处理多主体场景时能够更加精确地执行指令并呈现细节;此外,该模型还采用了统一的全注意力机制,这不仅让视频帧之间的过渡更加自然,还实现了在保持主体一致性的前提下进行多视角切换;最后,混元通过采用先进的图像视频混合VAE技术(3D变分编码器),在细节捕捉上取得了显著进步,特别是在处理小尺寸人脸和快速运动镜头等复杂场景时表现尤为突出。

目前,腾讯宣布开源该视频生成大模型已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。基于腾讯混元的开源模型,开发者及企业无需从头训练,即可直接用于推理,并可基于腾讯混元系列打造专属应用及服务,能够节约大量人力及算力,加速行业创新步伐。

相关资讯

腾讯混元宣布大语言模型和3D模型正式开源 ​

腾讯混元大模型正在加快开源步伐。 11月5日,腾讯混元宣布最新的MoE模型“混元Large“以及混元3D生成大模型“ Hunyuan3D-1.0”正式开源,支持企业及开发者精调、部署等不同场景的使用需求,可在HuggingFace、Github等技术社区直接下载,免费可商用。 本次开源是腾讯混元继文生图模型后持续开放的一大举措。

腾讯混元大模型再进化,文生图能力重磅上线,这里是一手实测

2023 年,大模型的落地按下加速键,文生图便是最火热的应用方向之一。自从 Stable Diffusion 诞生以来,海内外的文生图大模型不断涌现,一时有「神仙打架」之感。每一次技术迭代,都带来了模型生成效果和速度的飞速提升。就在今天,腾讯混元大模型也宣布了最新进展:文生图能力正式上线。一上手试用,我们就看到了混元大模型对于博大精深的中餐文化的理解。这里选取了让很多大模型犯难的「蚂蚁上树」,但混元轻松生成:问题来了,现在的文生图大模型这么卷,混元大模型还有没有其他特别的优势?据官方介绍,如果从算法、模型方面来讲,

腾讯混元大模型负责人王迪:揭秘万亿 MoE 系统工程之道|智者访谈

人工智能的卓越发展源于对技术与产业本质的洞察AI在线全新视频栏目「智者访谈」邀请领域专家,洞悉 AI 核心技术与行业趋势为从业者量身打造深化行业认知,激发创新思考与智者同行,共创 AI 未来人工智能正经历一场由大模型引发的革命。这些拥有数十亿甚至万亿参数的庞然大物,正在重塑我们对 AI 能力的认知,也构筑起充满挑战与机遇的技术迷宫——从计算集群高速互联网络的搭建,到训练过程中模型稳定性和鲁棒性的提升,再到探索更快更优的压缩与加速方法,每一步都是对创新者的考验。面对快速演变的市场,企业如何在大模型投入与应用间寻求平衡