Flag-DiT
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
基于 Diffusion Transformer(DiT)又迎来一大力作「Flag-DiT」,这次要将图像、视频、音频和 3D「一网打尽」。今年 2 月初,Sora 的发布让 AI 社区更加看到了基础扩散模型的潜力。连同以往出现的 Stable Diffusion、PixArt-α 和 PixArt-Σ,这些模型在生成真实图像和视频方面取得了显著的成功。这意味着开始了从经典 U-Net 架构到基于 Transformer 的扩散主干架构的范式转变。值得注意的是,通过这种改进的架构,Sora 和 Stable Dif
5/13/2024 11:21:00 AM
机器之心
- 1
资讯热榜
标签云
人工智能
AIGC
OpenAI
AI绘画
ChatGPT
数据
机器人
谷歌
智能
Midjourney
大模型
学习
GPT
DeepSeek
用户
AI创作
AI
微软
图像
开源
Meta
技术
论文
Stable Diffusion
算法
生成式
蛋白质
马斯克
芯片
Gemini
计算
神经网络
代码
AI设计
Sora
研究
腾讯
3D
开发者
GPU
场景
伟达
模型
英伟达
预测
机器学习
华为
模态
Transformer
文本
驾驶
神器推荐
深度学习
AI视频
AI for Science
苹果
搜索
干货合集
LLaMA
视频生成
算力
百度
2024
Copilot
科技
应用
Anthropic
特斯拉
AI应用场景
安全
具身智能
写作
机器
字节跳动
AGI
视觉
DeepMind
API
架构
语音