感谢商汤科技在世界人工智能大会(WAIC)上发布了首个“可控”人物视频生成大模型 Vimi,通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。与图片表情控制类技术只能控制头部表情动作不同,商汤称 Vimi 不但可以实现精准的人物表情控制,还可实现在半身区域内控制照片中人物的自然肢体变化,并自动生成与人物相符的头发、服饰及背景变化。同时 Vimi 可稳定生成 1 分钟的单镜头人物类视频,画面效果不会随着时间的变化而劣化或失真,满足娱乐
感谢商汤科技在世界人工智能大会(WAIC)上发布了首个“可控”人物视频生成大模型 Vimi,通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。
![一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi](https://cdn.sailfox.cc/aiol/2024/0705/i1020/eb89558f626d49b2bf34227aac2cb4e5.png)
与图片表情控制类技术只能控制头部表情动作不同,商汤称 Vimi 不但可以实现精准的人物表情控制,还可实现在半身区域内控制照片中人物的自然肢体变化,并自动生成与人物相符的头发、服饰及背景变化。
![一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi](https://cdn.sailfox.cc/aiol/2024/0705/i1020/70b1ec6915a84f0fb2d26d17ad67e3c6.png)
同时 Vimi 可稳定生成 1 分钟的单镜头人物类视频,画面效果不会随着时间的变化而劣化或失真,满足娱乐互动等需要长时间稳定视频生成需求。
![一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi](https://cdn.sailfox.cc/aiol/2024/0705/i1020/4430f7923d054bd6b75fcf726d67df8f.png)
Vimi 将完全面向 C 端用户开放使用,用户只需上传不同角度的高清人物图片,即可自动生成数字分身和不同风格的写真视频。
![一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi](https://cdn.sailfox.cc/aiol/2024/0705/i1020/ae49f63d5e944180bd54631d70a58cc8.png)
由 Vimi 生成的视频人物不再只是呆板的五官运动,而是搭配手势、肢体、头发等,形成更完整、统一的人物动作,让创作者可基于生成的视频素材进行剪辑和再创作。
商汤表示将在明日公布 Vimi 的更多细节,IT之家也会持续关注并带来跟进报道。