阿里通义万相宣布即将开源视频生成模型WanX 2.1

近日,阿里巴巴宣布视频生成模型WanX2.1将全面开源,同时公布了最新视频效果。 2025年1月,阿里巴巴旗下通义万相团队推出Wanx2.1多模态大模型,凭借其在视频生成领域的突破性进展,荣登VBench评测榜单首位,重新定义了AI驱动的视觉创作标准。 WanX 团队[昨晚宣布即将开源其最新的 WANX2.1视频生成模型。

近日,阿里巴巴宣布视频生成模型WanX2.1将全面开源,同时公布了最新视频效果。

2025年1月,阿里巴巴旗下通义万相团队推出Wanx2.1多模态大模型,凭借其在视频生成领域的突破性进展,荣登VBench评测榜单首位,重新定义了AI驱动的视觉创作标准。WanX 团队[昨晚宣布即将开源其最新的 WANX2.1视频生成模型。

据悉,Wanx2.1首次攻克了AI视频模型中长期存在的文字生成难题,成为全球首个支持中英文文字特效的模型。用户仅需输入文本指令即可生成动态视频,并搭配多样化的过渡、粒子等特效。此外,通过自研的高效VAE与DiT架构,模型实现了无限长1080P视频的高效编解码,显著提升了时空上下文建模能力。

在物理规律模拟方面,Wanx2.1能够精准还原碰撞、反弹、切割等复杂场景。例如,生成“雨滴落在伞面溅起水花”或“花样滑冰运动员旋转”的视频时,肢体协调性和运动轨迹均符合真实物理规律,有效解决了传统模型肢体扭曲、动作僵硬的问题。

相关资讯

低质多模态数据融合,多家机构联合出了篇综述论文

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com多模态融合是多模态智能中的基础任务之一。多模态融合的动机在于联合利用来自不同模态的有效信息提升下游任务的准确性和稳定性。传统的多模态融合方法往往依赖高质量数据,难以适应现实应用中的复杂低质

ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-Sora

Sora、Genie等模型会都用到的Tokenizer,微软下手了——开源了一套全能的Video Tokenizer,名为VidTok。 Sora等视频生成模型工作中,都会利用Tokenizer将原始的高维视频数据(如图像和视频帧)转换为更为紧凑的视觉Token,再以视觉Token为目标训练生成模型。 而最新的VidTok,在连续和离散、不同压缩率等多种设定下,各项指标均显著优于SOTA模型。