DiT

“神笔马良版 Sora”，阿里团队推出视频 AI 生成框架 Tora：画圈操控物体运动轨迹

阿里团队最新推出了 AI 视频生成框架 Tora，同时集成了文本、视觉和轨迹条件用于生成视频，是基于轨迹导向的扩散变换器（DiT）技术。Tora 由一个轨迹提取器（TE）、一个时空 DiT 和一个运动引导融合器（MGF）组成：TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动补丁。MGF 将运动贴片集成到 DiT 模块中，以生成遵循轨迹的连贯视频。Tora 无缝契合 DiT 设计，支持制作最长 204 帧、720P 分辨率的视频，可以精确控制不同持续时间、宽高比和分辨率的视频内容。大量实验证明，Tora 在

8/6/2024 10:08:40 AM

故渊

腾讯混元文生图大模型开源训练代码，发布LoRA与ControlNet插件

6月21日，腾讯混元文生图大模型（以下简称为混元DiT模型）宣布全面开源训练代码，同时对外开源混元DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。这意味着，全球的企业与个人开发者、创作者们，都可以基于混元DiT训练代码进行精调，创造更具个性化的专属模型，进行更大自由度的创作；或基于混元DiT的代码进行修改和优化，基于此构建自身应用，推动技术的快速迭代和创新。作为中文原生模型，用户在通过混元DiT的训练代码进行精调时，可以直接使用中文的数据与标签，无需再将数据翻译成英文。此前，腾讯混元文生图大

6/21/2024 2:04:00 PM

新闻助手

腾讯混元文生图开源大模型加速库发布：生图时间缩短 75%

腾讯今日发布针对腾讯混元文生图开源大模型（混元 DiT）的加速库，号称大幅提升推理效率，生图时间缩短 75%。官方表示，混元 DiT 模型的使用门槛也大幅降低，用户可以基于 ComfyUI 的图形化界面使用腾讯混元文生图模型能力。同时，混元 DiT 模型已经部署至 HuggingFaceDiffusers 通用模型库中，用户仅用三行代码即可调用混元 DiT 模型，无需下载原始代码库。在此之前，腾讯曾宣布混元文生图大模型全面升级并对外开源，供企业、个人开发者免费商用。腾讯方面称其为“业内首个”中文原生的 DiT 架构

6/6/2024 1:56:48 PM

清源

腾讯混元文生图大模型对外开源：搭载首个中英双语 DiT 架构，免费商用

感谢腾讯宣布旗下的混元文生图大模型升级并对外开源，目前已经在 Hugging Face 及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。▲ 混元文生图效果▲ 混元长文生图效果升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构，腾讯表示，混元 DiT 是首个中英双语 DiT 架构。混元 DiT 是一个基于 Diffusion transformer 的文本到图像生成模型，此模型具有中英文细粒度理解能力，混元 DiT 能够与用户进行多轮对话，根据上下文生

5/14/2024 5:01:24 PM

沛霖（实习）

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o OPPO 小布助手网页版上线，接入满血版 DeepSeek

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型