“神笔马良版 Sora”,阿里团队推出视频 AI 生成框架 Tora:画圈操控物体运动轨迹

阿里团队最新推出了 AI 视频生成框架 Tora,同时集成了文本、视觉和轨迹条件用于生成视频,是基于轨迹导向的扩散变换器(DiT)技术。Tora 由一个轨迹提取器(TE)、一个时空 DiT 和一个运动引导融合器(MGF)组成:TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动补丁。MGF 将运动贴片集成到 DiT 模块中,以生成遵循轨迹的连贯视频。Tora 无缝契合 DiT 设计,支持制作最长 204 帧、720P 分辨率的视频,可以精确控制不同持续时间、宽高比和分辨率的视频内容。大量实验证明,Tora 在

阿里团队最新推出了 AI 视频生成框架 Tora,同时集成了文本、视觉和轨迹条件用于生成视频,是基于轨迹导向的扩散变换器(DiT)技术。

Tora 由一个轨迹提取器(TE)、一个时空 DiT 和一个运动引导融合器(MGF)组成:

TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动补丁。

MGF 将运动贴片集成到 DiT 模块中,以生成遵循轨迹的连贯视频。

“神笔马良版 Sora”,阿里团队推出视频 AI 生成框架 Tora:画圈操控物体运动轨迹

Tora 无缝契合 DiT 设计,支持制作最长 204 帧、720P 分辨率的视频,可以精确控制不同持续时间、宽高比和分辨率的视频内容。大量实验证明,Tora 在实现高运动保真度方面表现出色,同时还能细致模拟物理世界的运动。

“神笔马良版 Sora”,阿里团队推出视频 AI 生成框架 Tora:画圈操控物体运动轨迹

其独特设计理念融合文本、视觉和轨迹条件,精准控制视频内容,模拟物理世界运动规律,为电影特效制作、虚拟现实领域带来无限可能。

AI在线附上参考地址

Tora:Trajectory-oriented Diffusion Transformer for Video Generation

GitHub 仓库

技术论文

相关资讯

CVPR 2021 | 不需要标注了?看自监督学习框架如何助力自动驾驶

来自自动驾驶公司轻舟智航和约翰霍普金斯大学的学者提出了一个自监督学习框架,可从未标注的激光雷达点云和配对的相机图像中进行点云运动估计,与现有的监督方法相比,该方法具有良好的性能,当进一步进行监督微调时,模型优于 SOTA 方法。

阿里「轨迹可控版Sora」,告别「抽卡」,让视频生成更符合物理规律

你规定路线,Tora 来生成相应轨迹的视频。目前,扩散模型能够生成多样化且高质量的图像或视频。此前,视频扩散模型采用 U-Net 架构 ,主要侧重于合成有限时长(通常约为两秒)的视频,并且分辨率和纵横比受到固定限制。Sora 的出现打破了这一限制,其采用 Diffusion Transformer(DiT)架构,不仅擅长制作 10 到 60 秒的高质量视频,而且还因其生成不同分辨率、各种纵横比、且遵守实际物理定律的能力而脱颖而出。可以说 Sora 是 DiT 架构最有利的证明,然而,基于 Transformer 的

帕西尼发布第二代多维触觉人形机器人 TORA-ONE:双手集成近 2000 个自研 ITPU 传感单元

2024 世界机器人大会于 8 月 21 日在北京开幕,帕西尼感知科技发布了第二代人形机器人 TORA-ONE。第二代多维触觉人形机器人 TORA-ONE 双手集成近 2000 个自研的 ITPU 多维触觉传感单元,能捕捉并解析接触面上细微形变与多维度触感信息;本体自由度提升至 47 个,搭配 26 自由度的仿生灵巧手,支持自研的 VTLA-Model 视触觉多模态感知模型与 AI 视觉系统。▲ 第二代多维触觉人形机器人 TORA-ONEAI在线注意到,TORA-ONE 采用了高度模块化的设计理念,支持 1.46