字节豆包全新图象Tokenizer:生成图象最低只需32个token,最高提速410倍

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected] 在生成式模型的迅速发展中,Image Tokenization 扮演着一个很重要的角色,例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokeniz

字节豆包全新图象Tokenizer:生成图象最低只需32个token,最高提速410倍

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

 

在生成式模型的迅速发展中,Image Tokenization 扮演着一个很重要的角色,例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图象编码至一个更为紧凑的隐空间(latent space),使得生成高分辨率图象更有效率。

然而,现有的Tokenizer通常会将输入图象映射为隐空间的一个降采样后的2D矩阵,这一设计隐式的限制了token与图象之间的映射关系,导致其很难有效的利用图象中的冗余信息(比如相邻的区域经常会有类似的特征)来获得一个更加有效的图象编码。

为了解决这一问题,字节跳动豆包大模型团队和慕尼黑工业大学提出了全新的1D图象Tokenizer:TiTok,这一Tokenizer打破了2D Tokenizer的设计局限,可以将整个图片压缩至更为紧凑的Token序列。

字节豆包全新图象Tokenizer:生成图象最低只需32个token,最高提速410倍

论文链接:https://arxiv.org/abs/2406.07550 

项目链接:https://yucornetto.github.io/projects/titok.html

代码链接:https://github.com/bytedance/1d-tokenizer

对于256 x 256分辨率的图片,TiTok最少仅需32个Token就可以表达,比通常2D Tokenizer的256或1024个Token明显减少。对于512 x 512分辨率的图片,TiTok最少仅需64个Token,64倍小于Stable Diffusion的VAE Tokenizer。此外,在ImageNet图象生成这一任务上,利用TiTok作为Tokenizer的生成器在生成品质和生成速率上都有明显提高。

在256分辨率,TiTok获得了1.97的FID,明显超过利用同样生成器的MaskGIT 4.21。在512分辨率TiTok可以获得2.74的FID,不仅超过了DiT(3.04),并且相比DiT在图象生成上加速了惊人的410倍!TiTok的最好变种取得了2.13的FID,明显超过DiT的同时仍旧有着74倍的加速。

字节豆包全新图象Tokenizer:生成图象最低只需32个token,最高提速410倍

                              TiTok仅用32个Token就可以完成高品质的图象重修与生成

字节豆包全新图象Tokenizer:生成图象最低只需32个token,最高提速410倍

                               图象所需Token的明显减少带来了明显更快的生成速率,但是同时维持了高品质的图象生成。

模型结构

TiTok的结构非常简单,编码器和解码器部分各自是一个ViT,在编码过程中,一组latent tokens会拼接在image patches后,在过完编码器后,仅保留latent tokens并进行quantization的过程。获得的quantized latent tokens将会与一组mask tokens拼接在一起,一并送入解码器,从mask token序列中重修出图象。

字节豆包全新图象Tokenizer:生成图象最低只需32个token,最高提速410倍

1D Tokenization 性质研究

研究者进行了一系列实验研究关于不同数量的用于表示图象的token,不同的tokenizer大小,重修表现,生成表现,linear probing准确率,以及训练和推理速率的比较。在这一过程中,研究者发现(1)仅需32个Token便能取得很好的重修与生成效果(2)通过增大Tokenizer的模型大小,研究者可以利用更少的Token来表示图片(3)当图片利用较少的Token来表示时,Tokenizer会学到更强的语义信息(4)利用更少的Token来表示图片时,训练和推理速率都有了明显的提升。

字节豆包全新图象Tokenizer:生成图象最低只需32个token,最高提速410倍

此外,视频中展示了利用不同的Tokenizer大小以及Token数目时所重修出的图片,可以看到更大的Tokenizer可以在有限的Token下重修出品质更好的图象。此外,当仅有有限Token时,模型更倾向于保留明显区域有更好的重修效果。

字节豆包全新图象Tokenizer:生成图象最低只需32个token,最高提速410倍

实验验证

研究者主要在ImageNet-1k的256 x 256分辨率以及512 x 512分辨率上进行了与其他方法的比较。可以看到,尽管TiTok利用有限的Token数目,但是可以和其他利用更多Token的方法取得相当的重修效果(rFID),利用较少的Token数目让TiTok在维持较高的生成图片品质(gFID)的同时有着明显快于其他方法的生成速率。

例如TiTok-L-32获得了2.77的gFID score,同时可以以每秒101.6张图片的速率进行图片生成,这一速率明显快于其他Diffusion Models (169倍快于DiT)或者Transformer Models (339倍快于ViT-VQGAN).

字节豆包全新图象Tokenizer:生成图象最低只需32个token,最高提速410倍

TiTok利用较少Token的优势在更高分辨率的图象生成上更加明显,其中TiTok-L-64仅利用64个Token就能完成高品质的512分辨率图象的重修与生成,生成图象的品质不仅高于DiT (2.74 v.s. 3.04),同时生成速率提高了近410倍。

字节豆包全新图象Tokenizer:生成图象最低只需32个token,最高提速410倍

结论

在本文中,研究者专注于一个全新的1D Image Tokenizer,并提出了一种全新的Tokenizer来打破现有2D Tokenizer中的局限,进而更好的利用图象中的冗余信息。TiTok仅需少量的Token(比如32个)来表示图象,同时仍旧能进行高品质的图象重修与生成。在ImageNet的256分辨率和512分辨率生成实验中,TiTok不仅取得了超过Diffusion Models的生成品质,同时有着百倍更快的生成速率。

关于豆包大模型团队

字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。

豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。

欢迎加入字节跳动豆包大模型团队,点击下方链接即可进入字节跳动 Top Seed 计划:

https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ

给TA打赏
共{{data.count}}人
人已打赏
工程

不做数值运算、纯靠嘴炮也能机械进修?鉴于自然语言的全新ML范式来了

2024-6-21 15:21:00

工程

导师爆料:这篇CVPR最好学生论文,从设法主意到成稿只用一个月,源自业余灵感

2024-6-24 11:17:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索