OCR-Omni来了!字节&华师提出统一的多模态生成模型TextHarmony

本文经AIGC Studio公众号授权转载,转载请联系出处。 在人工智能领域,赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。 目前,视觉文字领域的大模型研究主要聚焦于单模态生成任务。

本文经AIGC Studio公众号授权转载,转载请联系出处。

在人工智能领域,赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。目前,视觉文字领域的大模型研究主要聚焦于单模态生成任务。尽管这些模型在某些任务上实现了统一,但在 OCR 领域的多数任务上仍难以达成全面整合。

字节&华师提出统一的多模态生成模型TextHarmony:能够熟练地理解和生成视觉文本

图片

图 (a) 说明了不同类型的图像文本生成模型:视觉文本理解模型只能生成文本,视觉文本生成模型只能生成图像,而 TextHarmony 可以生成文本和图像。图 (b) 说明了 TextHarmony 在为各种以文本为中心的任务生成不同模态方面的多功能性。

相关链接

论文链接: https://arxiv.org/abs/2407.16364

代码开源: https://github.com/bytedance/TextHarmony

论文阅读

图片

摘要

在这项工作中,我们提出了 TextHarmony,这是一种统一且通用的多模态生成模型,能够熟练地理解和生成视觉文本。由于视觉和语言模态之间固有的不一致,同时生成图像和文本通常会导致性能下降。

为了克服这一挑战,现有方法依靠特定模态的数据进行监督微调,这需要不同的模型实例。我们提出了 Slide-LoRA,它动态地聚合了特定模态和模态无关的 LoRA 专家,部分解耦了多模态生成空间。Slide-LoRA 在单一模型实例中协调视觉和语言的生成,从而促进了更统一的生成过程。此外,我们开发了一个高质量的图像标题数据集 DetailedTextCaps-100K,并与复杂的闭源 MLLM 合成,以进一步增强视觉文本生成能力。在各种基准上进行的全面实验证明了所提出方法的有效性。

在 Slide-LoRA 的支持下,TextHarmony 仅增加了 2% 的参数,就实现了与特定模态微调结果相当的性能,并且在视觉文本理解任务中平均提高了 2.5%,在视觉文本生成任务中平均提高了 4.0%。我们的工作描述了在视觉文本领域内采用集成方法进行多模态生成的可行性,为后续研究奠定了基础。

方法

图片TextHarmony 的管道。TextHarmony 通过连接视觉编码器、LLM 和图像解码器来生成文本和视觉内容。提出的 Slide-LoRA 模块通过部分分离参数空间来缓解多模式生成中的不一致问题。

实验

图片可视化文本生成结果。

图片可视化文本编辑结果。

图片DetailedTextCaps-100K 的更多示例。

图片TextHarmony 视觉文本理解和感知能力的可视化。

结论

TextHarmony是一种多功能多模态生成模型,擅长协调视觉文本理解和生成的不同任务。利用所提出的 Slide-LoRA 机制,TextHarmony 在单一模型实例中同步视觉和语言模态的生成过程,有效地解决了不同模态之间固有的不一致问题。该模型架构擅长执行涉及处理和生成图像、蒙版、文本和布局的任务,特别是在光学字符识别 (OCR) 和文档分析领域。TextHarmony 的成就预示着在视觉文本领域内综合多模态生成模型的巨大潜力。TextHarmony 的适应性表明,类似性质的模型可以有效地应用于各种应用程序,为依赖视觉文本理解和生成复杂相互作用的行业带来革命性的前景。

相关资讯

2024智源大会议程公开丨生成模型

2024年6月14日-15日,第6届北京智源大会将以线下与线上结合的形式召开,线下会场设在中关村国家自主创新示范区会议中心。2024智源大会再次以全球视野,汇聚年度杰出工作研究者,交流新思想,探讨新思路,引领新前沿。目前已正式开放报名渠道。北京智源大会倒计时:11 天生成模型 论坛丨6月15日下午生成式建模是人工智能的基础范式之一,是迈向通用人工智能的重要一环。随着生成式建模方法的快速发展和模型规模的急速增长,以自回归模型、扩散概率模型为代表的生成式人工智能(如GPT系列、Sora、Stable Diffusion

突破非视距条件依赖!大规模区域、低成本的UWB-LiDAR标定与单次定位框架

本文经3D视觉之心公众号授权转载,转载请联系出处。 UWB大规模实时工业定位超宽带(UWB)是一种短距离、节能的无线电通信技术,主要用于精确的定位检测和相对距离测量。 例如,Apple 的 AirTags 和 Android 的 SmartTags 等设备因其能够精确追踪家用物品而越来越受欢迎。

9亿训练集、通用CV任务,微软打造Florence模型打破分类、检索等多项SOTA

来自微软的研究者另辟蹊径,提出了一种新的计算机视觉基础模型 Florence。在广泛的视觉和视觉 - 语言基准测试中,Florence 显著优于之前的大规模预训练方法,实现了新的 SOTA 结果。