所有这些都标明,Transformer 有可能成为分类、检测和分割等计算机视觉恣意的强大通用模型。但问题也随之而来:Transformer 在 CV 领域能走多远?对于生成对抗收集(GAN)等更加复杂的 CV 恣意,Transformer 的表现又如何呢?
在这些问题的驱动下,来自德州大学奥斯汀分校和 IBM 研讨院的研讨者进行了首次试验性研讨,建立了一个使用纯 Transformer、完全没有卷积的 GAN,并将其命名为 TransGAN。与其它基于 Transformer 的视觉模型相比,仅使用 Transformer 建立 GAN 似乎更具挑战性。实验结果标明,与当前基于卷积骨干的 SOTA GAN 相比,表现最佳的 TransGAN 实现了极具竞争力的性能。该研讨还标明,对于卷积骨干以及许多专用模块的依赖可能不是 GAN 所必需的,纯 Transformer 有足够的能力生成清晰图像。
3月3日,机械之心最新一期线上分享邀请到了论文一作、德州大学奥斯汀分校博士生江亦凡(Yifan Jiang),为大家详细解读此前沿研讨。
分享主题:TransGAN:丢弃卷积,纯 Transformer 建立 GAN 收集
个人简介:江亦凡,德州大学奥斯汀分校电子计算机工程专业博士生。2019 年毕业于华中科技大学电子信息学院,并先后于 2019 年和 2020 年在字节跳动 AI 实验室和 Adobe 担任研讨实习生。研讨兴趣包括深度学习和计算机视觉,当前的研讨兴趣为图像生成与图像编辑、神经架构搜索和高维表征学习。个人主页:yifanjiang.net (http://yifanjiang.net/)
分享概要:近期一系列研讨标明,Transformer 有足够的潜力在计算机视觉恣意上成为强大的 “通用” 模型(如 分类恣意,检测恣意,分割恣意等)。然而,Transformer 距离成为通用模型的距离还有多远?Transformer 能否应用到其它一些极为困难的视觉恣意,例如生成对抗收集(GAN)上?由这一系列问题启发,我们设计 TransGAN,通过不包含卷积神经收集(CNN)的纯 transformer 结构来建立 GAN 收集。在这次报告中,我将为大家介绍 TransGAN 的优势和不足,并讨论一系列相关的问题。例如,TransGAN 在不同数据集上的表现如何?由 transformer 建立的 GAN 收集相比于 CNN 建立的 GAN 收集速度如何?以及 TransGAN 能否扩大的更高分辨率的恣意上。
分享论文链接:https://arxiv.org/abs/2102.07074
直播间链接:https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_6034d049e4b035d3cdba5abf?type=2
直播时间:北京时间 3 月 3 日 20:00-21:00
进入灵活组,一起看直播
「灵活组」是机械之心发起的人工智能技巧社区,将持续提供技巧公开课、论文分享、热门主题解读等线上线下活动,同时「灵活组」也将不定期组织人才服务、产业技巧对接等活动,欢迎所有 AI 领域技巧从业者进入。
增加机械之心小助手(syncedai5),备注「论文分享」,进入本次直播群。
如小助手增加异常,还可以增加 syncedai4 与 syncedai6,或将微信 ID 发送至邮箱 [email protected],我们将邀请你入群。