阶跃星辰 Step-Video-TI2V 图生视频模型开源:运动幅度和镜头运动可控

今年 2 月阶跃星辰开源了两款 Step 系列多模态大模型 ——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,今天阶跃星辰继续开源图生视频模型 ——Step-Video-TI2V,一款基于 30B 参数 Step-Video-T2V 训练的图生视频模型,支持生成 102 帧、5 秒、540P 分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,同时天生具备一定的特效生成能力。

今年 2 月阶跃星辰开源了两款 Step 系列多模态大模型 ——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,今天阶跃星辰继续开源图生视频模型 ——Step-Video-TI2V,一款基于 30B 参数 Step-Video-T2V 训练的图生视频模型,支持生成 102 帧、5 秒、540P 分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,同时天生具备一定的特效生成能力。

阶跃星辰 Step-Video-TI2V 图生视频模型开源:运动幅度和镜头运动可控

阶跃星辰称,和目前已有开源图生视频模型相比,Step-Video-TI2V 不仅在参数规模上对该领域的研究提供了更高的上限,其运动幅度可控能力,更是能够平衡图生视频生成结果的动态性和稳定性,为创作者提供更为灵活的选择。                                                               

与此同时,Step-Video-TI2V 已完成与华为昇腾计算平台的适配,并在魔乐社区(Modelers)上线。

AI在线附 Step-Video-TI2V 核心特点如下:

1、运动幅度可控:动态 & 稳定自由切换

Step-Video-TI2V 支持控制视频的“运动幅度(motion)”,平衡图生视频内容的运动性和稳定性。无论是静态稳定画面,还是高动态动作场景,都能满足创作者需求。

2、多种运镜控制

除了对镜头内主体运动的控制,Step-Video-TI2V 支持对多种运镜的理解,可以对生成视频中的镜头运动进行精准控制,生成大片级运镜效果。从基本的推拉摇移、升降,到各种复杂的电影级运镜效果都能驾驭。

3、动漫效果尤佳

Step-Video-TI2V 在动漫类任务上的效果尤其优异,非常贴合动画创作、短视频制作等应用场景。

4、支持多尺寸生成

Step-Video-TI2V 支持多种尺寸图生视频,无论是横屏的宽阔视野,竖屏的沉浸体验,还是方屏的经典复古,都能轻松驾驭。用户可以根据不同的创作需求和平台特性,自由选择图片尺寸,无需担心画面变形或比例失调的问题。

现在,Step-Video-TI2V 模型已正式开源,阶跃 AI 网页版和 App 端均已上线。

此外,Step-Video-TI2V 现在已初步具备一些特效生成能力,未来,阶跃星辰还将通过 LoRA 等技术,持续解锁模型的特效潜力。

模型及技术报告链接:

GitHub:

https://github.com/stepfun-ai/Step-Video-TI2V

Github-ComfyUI:

https://github.com/stepfun-ai/ComfyUI-StepVideo

技术报告:

https://arxiv.org/abs/2503.11251

相关资讯

阶跃星辰联合吉利首次开源 Step 系列多模态大模型,包含视频、语音两款模型

今日阶跃星辰和吉利汽车集团联合宣布,将双方合作的阶跃两款 Step 系列多模态大模型向全球开发者开源。其中,包含目前全球范围内参数量最大、性能最好的开源视频生成模型阶跃 Step-Video-T2V,以及行业内首款产品级开源语音交互大模型阶跃 Step-Audio。

阶跃星辰开放平台迎来多项更新,上线 Step-1X 图像生成大模型

近日,大模型创业公司阶跃星辰在其开放平台体验中心,正式上线了图像生成大模型 Step-1X,注册即可体验。 (指路链接:)事实上,这款大模型之前已经备受期待。 在 7 月份举行的 2024 世界人工智能大会上,阶跃星辰一口气发布了万亿参数语言大模型 Step-2、多模态大模型 Step-1.5V 和图像生成大模型 Step-1X 三款大模型,并且跟上海电影梦幻联动,基于经典 IP《大闹天宫》开发了 H5 互动体验“测测你是哪路神仙”。

阶跃星辰推出国内首个千亿参数端到端语音大模型“ Step-1o”

Step-1o 支持语音、文本等混合形式的输入和输出,可以快速反应并随时打断,它也能深度理解和模仿音色、韵律、方言、个性化的口语表达习惯等声音特征。