开源全家桶又添一“元”，腾讯混元大模型公布最新进展

作者：郑佳美

2024-12-04 02:19

刚刚，腾讯混元大模型公布最新进展：正式上线视频生成能力，这是继文生文、文生图、3D生成之后的又一新里程碑。与此同时，腾讯开源该视频生成大模型，参数量130亿，是当前最大的视频开源模型。 “用户只需要输入一段描述，即可生成视频，”腾讯混元相关负责人透露，目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。

刚刚，腾讯混元大模型公布最新进展：正式上线视频生成能力，这是继文生文、文生图、3D生成之后的又一新里程碑。与此同时，腾讯开源该视频生成大模型，参数量130亿，是当前最大的视频开源模型。

“用户只需要输入一段描述，即可生成视频，”腾讯混元相关负责人透露，目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。目前该模型已上线腾讯元宝APP，用户可在AI应用中的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入，目前API同步开放内测申请。

开源全家桶又添一“元”，腾讯混元大模型公布最新进展

通过腾讯元宝APP-AI应用-AI视频即可使用该功能（前期需申请）

在与国内外多个顶尖模型的评测对比显示，混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先，在人物、人造场所等场景下表现尤为出色。

开源全家桶又添一“元”，腾讯混元大模型公布最新进展

腾讯混元视频生成大模型制作出的视频画质很逼真，内容也与提示词高度一致，确保画面的流畅性，减少形变，甚至在提示词是 emoji 表情的情况下，也可以稳定输出。

例如，在处理冲浪、舞蹈等包含大幅度动作的场景时，该模型能够生成流畅且合理的动作镜头，物体形变现象得到有效控制；在处理光影反射时，它能够基本遵循物理规律，如在镜面或照镜子的场景中，能够实现镜内外动作的一致性。此外，该模型还能在保持画面主角不变的情况下自动切换镜头，这是许多其他模型所不具备的高级功能。

开源全家桶又添一“元”，腾讯混元大模型公布最新进展

视频由腾讯混元视频生成，提示词：200mm长焦镜头，对准一只停在栏杆上的海鸥。羽毛的纹理清晰可辨，前景的木栏杆温柔虚化。远处的落日和海平面融化成金红色的光影

开源全家桶又添一“元”，腾讯混元大模型公布最新进展

视频由腾讯混元视频生成，提示词：暴风雪中，一列蒸汽火车在崎岖山间穿行，黑烟从车头直冲云霄，车厢在皑皑白雪中留下深邃轨迹，镜头以侧面追踪，捕捉机械巨兽破开风雪的磅礴气势，白雾与蒸汽交织成壮丽画卷，电影氛围，远景

开源全家桶又添一“元”，腾讯混元大模型公布最新进展

视频由腾讯混元视频生成，提示词：一个隐藏的瀑布流入清澈的池塘，周围是高大的树木和绿色植物。阳光穿过树叶，在下面的岩石和水面上形成斑点。逼真，茂密森林中的宁静瀑布，宁静、阳光明媚的日子，中景

开源全家桶又添一“元”，腾讯混元大模型公布最新进展

视频由腾讯混元视频生成，提示词：一位戴着复古飞行护目镜的机械师，半跪在蒸汽朋克风格的工作室里。她棕色卷发挽成发髻，零星的银色发丝闪着金属光泽。深棕色皮质工装背带裤上沾满机油污渍，袖口卷起露出布满齿轮纹身的手臂。特写她正用黄铜工具调试一只机械鸟，齿轮间冒出缕缕蒸汽，工作台上散落着铜管、发条和老式图纸。

它采用了与Sora相似的DiT架构，并在此基础上进行了多项优化。混元的视频生成模型通过引入新一代的文本编码器，显著增强了对语义的理解和遵循能力，这使得它在处理多主体场景时能够更加精确地执行指令并呈现细节；此外，该模型还采用了统一的全注意力机制，这不仅让视频帧之间的过渡更加自然，还实现了在保持主体一致性的前提下进行多视角切换；最后，混元通过采用先进的图像视频混合VAE技术（3D变分编码器），在细节捕捉上取得了显著进步，特别是在处理小尺寸人脸和快速运动镜头等复杂场景时表现尤为突出。

目前，腾讯宣布开源该视频生成大模型已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费使用和开发生态插件。基于腾讯混元的开源模型，开发者及企业无需从头训练，即可直接用于推理，并可基于腾讯混元系列打造专属应用及服务，能够节约大量人力及算力，加速行业创新步伐。