“神笔马良版 Sora”,阿里团队推出视频 AI 生成框架 Tora:画圈操控物体运动轨迹

阿里团队最新推出了 AI 视频生成框架 Tora,同时集成了文本、视觉和轨迹条件用于生成视频,是基于轨迹导向的扩散变换器(DiT)技术。Tora 由一个轨迹提取器(TE)、一个时空 DiT 和一个运动引导融合器(MGF)组成:TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动补丁。MGF 将运动贴片集成到 DiT 模块中,以生成遵循轨迹的连贯视频。Tora 无缝契合 DiT 设计,支持制作最长 204 帧、720P 分辨率的视频,可以精确控制不同持续时间、宽高比和分辨率的视频内容。大量实验证明,Tora 在

阿里团队最新推出了 AI 视频生成框架 Tora,同时集成了文本、视觉和轨迹条件用于生成视频,是基于轨迹导向的扩散变换器(DiT)技术。

Tora 由一个轨迹提取器(TE)、一个时空 DiT 和一个运动引导融合器(MGF)组成:

TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动补丁。

MGF 将运动贴片集成到 DiT 模块中,以生成遵循轨迹的连贯视频。

“神笔马良版 Sora”,阿里团队推出视频 AI 生成框架 Tora:画圈操控物体运动轨迹

Tora 无缝契合 DiT 设计,支持制作最长 204 帧、720P 分辨率的视频,可以精确控制不同持续时间、宽高比和分辨率的视频内容。大量实验证明,Tora 在实现高运动保真度方面表现出色,同时还能细致模拟物理世界的运动。

“神笔马良版 Sora”,阿里团队推出视频 AI 生成框架 Tora:画圈操控物体运动轨迹

其独特设计理念融合文本、视觉和轨迹条件,精准控制视频内容,模拟物理世界运动规律,为电影特效制作、虚拟现实领域带来无限可能。

AI在线附上参考地址

Tora:Trajectory-oriented Diffusion Transformer for Video Generation

GitHub 仓库

技术论文

给TA打赏
共{{data.count}}人
人已打赏
应用

挑战英伟达,AI 芯片公司 Groq 成功融资 6.4 亿美元:估值飙升至 28 亿美元

2024-8-6 9:43:47

应用

智谱 AI 开源 CogVideoX 视频生成模型:“清影”同源,单张 4090 显卡可推理

2024-8-6 11:13:40

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索