DiT
“神笔马良版 Sora”,阿里团队推出视频 AI 生成框架 Tora:画圈操控物体运动轨迹
阿里团队最新推出了 AI 视频生成框架 Tora,同时集成了文本、视觉和轨迹条件用于生成视频,是基于轨迹导向的扩散变换器(DiT)技术。Tora 由一个轨迹提取器(TE)、一个时空 DiT 和一个运动引导融合器(MGF)组成:TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动补丁。MGF 将运动贴片集成到 DiT 模块中,以生成遵循轨迹的连贯视频。Tora 无缝契合 DiT 设计,支持制作最长 204 帧、720P 分辨率的视频,可以精确控制不同持续时间、宽高比和分辨率的视频内容。大量实验证明,Tora 在
腾讯混元文生图大模型开源训练代码,发布LoRA与ControlNet插件
6月21日,腾讯混元文生图大模型(以下简称为混元DiT模型)宣布全面开源训练代码,同时对外开源混元DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。这意味着,全球的企业与个人开发者、创作者们,都可以基于混元DiT训练代码进行精调,创造更具个性化的专属模型,进行更大自由度的创作;或基于混元DiT的代码进行修改和优化,基于此构建自身应用,推动技术的快速迭代和创新。作为中文原生模型,用户在通过混元DiT的训练代码进行精调时,可以直接使用中文的数据与标签,无需再将数据翻译成英文。此前,腾讯混元文生图大
腾讯混元文生图开源大模型加速库发布:生图时间缩短 75%
腾讯今日发布针对腾讯混元文生图开源大模型(混元 DiT)的加速库,号称大幅提升推理效率,生图时间缩短 75%。官方表示,混元 DiT 模型的使用门槛也大幅降低,用户可以基于 ComfyUI 的图形化界面使用腾讯混元文生图模型能力。同时,混元 DiT 模型已经部署至 HuggingFaceDiffusers 通用模型库中,用户仅用三行代码即可调用混元 DiT 模型,无需下载原始代码库。在此之前,腾讯曾宣布混元文生图大模型全面升级并对外开源,供企业、个人开发者免费商用。腾讯方面称其为“业内首个”中文原生的 DiT 架构
腾讯混元文生图大模型对外开源:搭载首个中英双语 DiT 架构,免费商用
感谢腾讯宣布旗下的混元文生图大模型升级并对外开源,目前已经在 Hugging Face 及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。▲ 混元文生图效果▲ 混元长文生图效果升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构,腾讯表示,混元 DiT 是首个中英双语 DiT 架构。混元 DiT 是一个基于 Diffusion transformer 的文本到图像生成模型,此模型具有中英文细粒度理解能力,混元 DiT 能够与用户进行多轮对话,根据上下文生
- 1