论文分享 | 丢弃卷积，纯Transformer建立GAN收集

最近，计算机视觉（CV）领域的研讨者对 Transformer 产生了极大的兴趣并陆续取得了不少突破。比如，2020 年 5 月，Facebook AI 的研讨者推出了 Transformer 的视觉版本——Detection Transformer，在性能上媲美当时的 SOTA 方法，但架构得到了极大简化；10 月，谷歌提出了 Vision Transformer (ViT)，可以直接利用 transformer 对图像进行分类，而不需要卷积收集。

所有这些都标明，Transformer 有可能成为分类、检测和分割等计算机视觉恣意的强大通用模型。但问题也随之而来：Transformer 在 CV 领域能走多远？对于生成对抗收集（GAN）等更加复杂的 CV 恣意，Transformer 的表现又如何呢？

在这些问题的驱动下，来自德州大学奥斯汀分校和 IBM 研讨院的研讨者进行了首次试验性研讨，建立了一个使用纯 Transformer、完全没有卷积的 GAN，并将其命名为 TransGAN。与其它基于 Transformer 的视觉模型相比，仅使用 Transformer 建立 GAN 似乎更具挑战性。实验结果标明，与当前基于卷积骨干的 SOTA GAN 相比，表现最佳的 TransGAN 实现了极具竞争力的性能。该研讨还标明，对于卷积骨干以及许多专用模块的依赖可能不是 GAN 所必需的，纯 Transformer 有足够的能力生成清晰图像。

3月3日，机械之心最新一期线上分享邀请到了论文一作、德州大学奥斯汀分校博士生江亦凡（Yifan Jiang），为大家详细解读此前沿研讨。

论文分享 | 丢弃卷积，纯Transformer建立GAN收集

分享主题：TransGAN：丢弃卷积，纯 Transformer 建立 GAN 收集

个人简介：江亦凡，德州大学奥斯汀分校电子计算机工程专业博士生。2019 年毕业于华中科技大学电子信息学院，并先后于 2019 年和 2020 年在字节跳动 AI 实验室和 Adobe 担任研讨实习生。研讨兴趣包括深度学习和计算机视觉，当前的研讨兴趣为图像生成与图像编辑、神经架构搜索和高维表征学习。个人主页：yifanjiang.net (http://yifanjiang.net/)

分享概要：近期一系列研讨标明，Transformer 有足够的潜力在计算机视觉恣意上成为强大的 “通用” 模型（如分类恣意，检测恣意，分割恣意等）。然而，Transformer 距离成为通用模型的距离还有多远？Transformer 能否应用到其它一些极为困难的视觉恣意，例如生成对抗收集（GAN）上？由这一系列问题启发，我们设计 TransGAN，通过不包含卷积神经收集（CNN）的纯 transformer 结构来建立 GAN 收集。在这次报告中，我将为大家介绍 TransGAN 的优势和不足，并讨论一系列相关的问题。例如，TransGAN 在不同数据集上的表现如何？由 transformer 建立的 GAN 收集相比于 CNN 建立的 GAN 收集速度如何？以及 TransGAN 能否扩大的更高分辨率的恣意上。

分享论文链接：https://arxiv.org/abs/2102.07074

直播间链接：https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_6034d049e4b035d3cdba5abf?type=2

直播时间：北京时间 3 月 3 日 20:00-21:00

进入灵活组，一起看直播

「灵活组」是机械之心发起的人工智能技巧社区，将持续提供技巧公开课、论文分享、热门主题解读等线上线下活动，同时「灵活组」也将不定期组织人才服务、产业技巧对接等活动，欢迎所有 AI 领域技巧从业者进入。

增加机械之心小助手（syncedai5），备注「论文分享」，进入本次直播群。

论文分享 | 丢弃卷积，纯Transformer建立GAN收集

如小助手增加异常，还可以增加 syncedai4 与 syncedai6，或将微信 ID 发送至邮箱 [email protected]，我们将邀请你入群。

{{userData.name}}已认证

论文分享 | 丢弃卷积，纯Transformer建立GAN收集

汽车智能创业公司亿咖通科技，再获超2亿美元A+轮融资

从算法到开发，字节跳动Leader们最中意的40项进修资源

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！