AI在线 AI在线

扩散Transformer

颠覆视频创作!阿里巴巴 VACE 模型统一处理文本、图像和视频输入

阿里巴巴集团的科学家们推出了 VACE,这是一种旨在统一处理广泛视频生成和编辑任务的通用人工智能模型。 VACE 的核心是增强的扩散 Transformer 架构,其创新之处在于“视频条件单元”(VCU)这一新型输入格式。 VCU 将文本提示、参考图像或视频序列以及空间蒙版等多种模态输入提炼为统一的表示,并通过专门的机制协调不同输入,避免冲突。
4/23/2025 11:00:57 AM
AI在线
  • 1