论文分享 | 丢弃卷积,纯Transformer构建GAN网络

最近,计算机视觉(CV)领域的研究者对 Transformer 产生了极大的兴趣并陆续取得了不少突破。比如,2020 年 5 月,Facebook AI 的研究者推出了 Transformer 的视觉版本——Detection Transformer,在性能上媲美当时的 SOTA 方法,但架构得到了极大简化;10 月,谷歌提出了 Vision Transformer (ViT),可以直接利用 transformer 对图像进行分类,而不需要卷积网络。

所有这些都表明,Transformer 有可能成为分类、检测和分割等计算机视觉任务的强大通用模型。但问题也随之而来:Transformer 在 CV 领域能走多远?对于生成对抗网络(GAN)等更加复杂的 CV 任务,Transformer 的表现又如何呢?

在这些问题的驱动下,来自德州大学奥斯汀分校和 IBM 研究院的研究者进行了首次试验性研究,构建了一个使用纯 Transformer、完全没有卷积的 GAN,并将其命名为 TransGAN。与其它基于 Transformer 的视觉模型相比,仅使用 Transformer 构建 GAN 似乎更具挑战性。实验结果表明,与当前基于卷积骨干的 SOTA GAN 相比,表现最佳的 TransGAN 实现了极具竞争力的性能。该研究还表明,对于卷积骨干以及许多专用模块的依赖可能不是 GAN 所必需的,纯 Transformer 有足够的能力生成清晰图像。

3月3日,机器之心最新一期线上分享邀请到了论文一作、德州大学奥斯汀分校博士生江亦凡(Yifan Jiang),为大家详细解读此前沿研究。

论文分享 | 丢弃卷积,纯Transformer构建GAN网络

分享主题:TransGAN:丢弃卷积,纯 Transformer 构建 GAN 网络

个人简介:江亦凡,德州大学奥斯汀分校电子计算机工程专业博士生。2019 年毕业于华中科技大学电子信息学院,并先后于 2019 年和 2020 年在字节跳动 AI 实验室和 Adobe 担任研究实习生。研究兴趣包括深度学习和计算机视觉,当前的研究兴趣为图像生成与图像编辑、神经架构搜索和高维表征学习。个人主页:yifanjiang.net (http://yifanjiang.net/)

分享概要:近期一系列研究表明,Transformer 有足够的潜力在计算机视觉任务上成为强大的 “通用” 模型(如 分类任务,检测任务,分割任务等)。然而,Transformer 距离成为通用模型的距离还有多远?Transformer 能否应用到其它一些极为困难的视觉任务,例如生成对抗网络(GAN)上?由这一系列问题启发,我们设计 TransGAN,通过不包含卷积神经网络(CNN)的纯 transformer 结构来构建 GAN 网络。在这次报告中,我将为大家介绍 TransGAN 的优势和不足,并讨论一系列相关的问题。例如,TransGAN 在不同数据集上的表现如何?由 transformer 构建的 GAN 网络相比于 CNN 构建的 GAN 网络速度如何?以及 TransGAN 能否扩大的更高分辨率的任务上。

分享论文链接:https://arxiv.org/abs/2102.07074

直播间链接:https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_6034d049e4b035d3cdba5abf?type=2

直播时间:北京时间 3 月 3 日 20:00-21:00

加入机动组,一起看直播

「机动组」是机器之心发起的人工智能技术社区,将持续提供技术公开课、论文分享、热门主题解读等线上线下活动,同时「机动组」也将不定期组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

添加机器之心小助手(syncedai5),备注「论文分享」,加入本次直播群。

论文分享 | 丢弃卷积,纯Transformer构建GAN网络

如小助手添加异常,还可以添加 syncedai4 与 syncedai6,或将微信 ID 发送至邮箱 [email protected],我们将邀请你入群。

相关资讯

Python社区变天:可去除全局解释器锁GIL,真正多线程要来了

这次,Python 将不再是人们所说的伪多线程了。

超三万种材料,近百万真实材料合成表征信息,LLM精准构建材料知识图谱MKG,登NeurIPS 2024

编辑 | ScienceAI知识图谱集成多源数据信息为结构化知识,以阐明复杂科学领域的数据结构并介导研究进展、创新和应用的结构化知识交流。 为了统筹和分析分散在数以百万计的文献中的材料学知识,新南威尔士大学(UNSW)、同济大学、香港城市大学以及 GreenDynamics 律动造物,构建了材料知识图谱(MKG)。 该团队依托于大型语言模型独立设计的本体论,并自动化地提取及清洗了大量的材料学文献中的知识,构建出了丰富的知识图谱。

从零开始,用英伟达T4、A10训练小型文生视频模型,几小时搞定

很翔实的一篇教程。OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经发布或未来将出现的文本生成视频模型,是继大语言模型 (LLM) 之后 2024 年最流行的 AI 趋势之一。在这篇博客中,作者将展示如何将从头开始构建一个小规模的文本生成视频模型,涵盖了从理解理论概念、到编写整个架构再到生成最终结果的所有内容。由于作者没有大算力的 GPU,所以仅编写了小规模架构。以下是在不同处理器上训练模型所需时间的比较。作者表示,在 CPU 上运行显然需要更长