Facebook 近日公布了一项新的图象 AI——TextStyleBrush,该技能可以复制和再现图象中的文本气势派头。
借助该技能,你只需要输出一个词作为「标准」,AI 就能全篇摹仿你的书写气势派头,一键执行,效果可谓惊艳。
此外,你还可以用它替代分别场景中的笔墨(比如海报、垃圾桶、路标等)。下图中左侧为原始场景图象,单词显示在蓝色矩形中;右侧为文本替代后的图象。
从图中可以看出,各种气势派头的字体 AI 几乎都能 hold 住。下图中每个图象对在左边显示输出源款式,在右边显示新实质(字符串),左右两端字体看起来气势派头完全相同。与源图象相比,输出的图象在外观上似乎都有些模糊,但我们可以看到,在大多数情况下,该技能似乎工作得很好。
与其他字迹摹仿 AI 相比,TextStyleBrush 功能更强大,可以从更细微的角度分析笔墨款式,从而做到在各种角度和背景下进行字迹摹仿。
下图是酱油瓶(Soya)替代为茶瓶(Tea)的实现过程:
这款强大的摹仿神器正是 Facebook AI 推出的「TextStyleBrush」,只需输出一个单词,就能完美复现笔迹。这项技能的原理类似于笔墨处理 APP 中的款式笔刷工具,可以将笔墨和气势派头分开。
论文地址:https://scontent-sjc3-1.xx.fbcdn.net/v/t39.8562-6/10000000_944085403038430_3779849959048683283_n.pdf?_nc_cat=108&ccb=1-3&_nc_sid=ae5e01&_nc_ohc=Jcq0m5jBvK8AX–fG2A&_nc_ht=scontent-sjc3-1.xx&oh=8b7e8221bba5aba6b6331c643764dec5&oe=60EF2B81
数据集地址:https://github.com/facebookresearch/IMGUR5K-Handwriting-Dataset
它具有以下特点:
只需要一个单词,就能复制照片中的笔墨气势派头。应用该 AI 模型,你可以编辑和替代图象中的文本。
与大多数 AI 系统分别的是,TextStyleBrush 是首个自监视的 AI 模型,应用单个示例词一次性替代手写和图象中的文本。
将来它会在个性化信息和字幕等领域释放新的潜力,比如在增强现实 (AR) 中实现逼真的语言翻译。
通过公布这项研讨所具有的能力、步骤和结果,研讨者希望推动对话和研讨,以发现这类技能的潜在应用,如深度假文本攻击——这是人工智能领域的一大挑战。
由于 TextStyleBrush 也可能被用来制作误导性的图象,所以 Facebook 的 CTO 在个人社交网站表示,他们只发布了论文和数据集,但没有公开代码。并表示正如我们对 deepfakes 的步骤一样,我们认为共享研讨和数据集将有助于构建检测系统并提前预防攻击。
可以学习文本气势派头表征的 TextStyleBrush
用 AI 生成图象一直在以惊人的速度发展,这种生成技能能够重现历史场景,或者将照片变成梵高等绘画气势派头。现在,Facebook AI 已经建立了一个可以替代场景和手写文本气势派头的 AI,只需要一个单词作为输出。
虽然大多数 AI 系统都可以完成定义明确的、专门的任务,但构建一个足够灵活的 AI 系统,以理解现实场景中文本和手写体的细微差别,具有很大的挑战。这意味着需要了解众多的文本款式,不仅包括分别的字体和书写气势派头,而且也包括分别的转换,如旋转、弯曲的笔墨以及图象噪声等问题。
Facebook AI 提出了 TSB(TextStyleBrush)架构。该架构以自监视的步骤进行训练,没有应用方向气势派头监视,只应用了原始气势派头图象。该框架可以自动地寻找图片真实气势派头。在训练时,它假设每个词框有真实值(出现在框中的文本);推理时,它采用单一源款式图象和新实质(字符串),并生成带有方向实质的源款式的新图象。
该生成器架构是基于 StyleGAN2 模型。然而,它有两个重要的限制:
首先,StyleGAN2 是一个无条件模型,这意味着它通过对一个随机的潜在向量进行采样来生成图象。但 TextStyleBrush 必须要生成指定文本的图象。
其次,TextStyleBrush 生成的文本图象气势派头不受控制。文本气势派头涉及全局信息(例如调色板和空间变换),以及精细的比例信息组合(例如单个笔迹的细微变化。
研讨者通过实质和气势派头表征来调节生成器以解决上述限制。通过提取特定于层的气势派头信息并将其注入到生成器的每一层来处理文本气势派头的多尺度特性。除了以期望的气势派头生成方向图象外,生成器还生成表示前景像素 (文本区域) 的软蒙版图象。通过这种方式,生成器可以控制文本的低分辨率和高分辨率细节,以匹配所需的输出气势派头。
该研讨还引入了一种新的自监视训练准则,该准则应用字体(typeface)分类器、文本辨别器和对抗式鉴别器来保留源气势派头和方向实质。首先,研讨者通过应用预训练的字体分类网络来评估生成器捕获输出文本气势派头的能力。另外,他们应用预训练文本辨别网络来评估生成图象的实质,以反映生成器捕获方向实质的效果。总而言之,这种步骤能够对训练进行有效的自监视。
试验
表 2 提供了评估分别损失函数、气势派头特征扩展以及训练 TSB 时 mask 的作用消融试验结果。试验结果显示,TextStyleBrush 生成的图片在 MSE(合成误差)上大幅降低,PSNR(峰值信噪比)、SSIM(结构相似性)均获得了提高。
表 3 是在三种数据集图象上测得的文本辨别准确率。试验结果显示,TSB 的辨别效果最好,在 IC13 上的辨别准确率为 97.2%,IC15 上的辨别准确率为 97.6%,TextVQA 上的辨别准确率为 95.0%。
表 4 提供了生成的手写文本的定量比较,将 TSB 步骤与 Davis 等人 [14] 专门为生成手写文本而设计的 SotA 步骤进行了比较。FID 分数越低,生成质量越好。显然,TSB 步骤优于以前的工作。
TextStyleBrush 证明了 AI 在笔墨上面可以比过去更加灵活、准确地辨别,但这项技能仍然存在许多问题,如无法摹仿金属表面的字符或彩色字符等, Facebook 希望这项研讨能继续扩展,突破翻译、自主表达和 deepfake 研讨之间的障碍等。
失败案例。
参考链接:
https://ai.facebook.com/blog/ai-can-now-emulate-text-style-in-images-in-one-shot-using-just-a-single-word