W.A.L.T

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

在视频生成场景中,用 Transformer 做扩散模型的去噪骨干已经被李飞飞等研究者证明行得通。这可算得上是 Transformer 在视频生成领域取得的一项重大成功。近日,一项视频生成研究收获了大量赞誉,甚至被一位 X 网友评价为「好莱坞的终结」。真的有这么好吗?我们先看下效果:很明显,这些视频不仅几乎看不到伪影,而且还非常连贯、细节满满,甚至似乎就算真的在电影大片中加上几帧,也不会明显违和。这些视频的作者是来自斯坦福大学、谷歌、佐治亚理工学院的研究者提出的 Window Attention Latent Tr
  • 1