将图象自动文本化，图象形貌质量更高、更准确了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]皮仁杰：香港科技大学博士三年级学生，师从张潼教授和周晓方教授。于 2024 年获得苹果奖学金。目前主要研究方向是多模态大谈话模型和数据为中心的 AI。张鉴殊：武汉大学本科三年级学生，目前在

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

皮仁杰：香港科技大学博士三年级学生，师从张潼教授和周晓方教授。于 2024 年获得苹果奖学金。目前主要研究方向是多模态大谈话模型和数据为中心的 AI。

张鉴殊：武汉大学本科三年级学生，目前在张潼教授的指导下担任研究实习生，主要研究方向是大谈话模型，多模态大谈话模型以及持续学习。当下在寻找 2025 fall 博士入学机会。

在当今的多模态大模型的发展中，模型的性能和训练数据的质量关系十分紧密，可以说是 “数据赋予了模型的绝大多数才智”。

在这其中，图象 – 文本数据集发挥着至关重要的作用，在图象理解、文本生成和图象检索等多个领域发挥着关键作用。

然而，现有的图象形貌数据集主要来源于网络抓取和人工标注，存在着质量参差不齐、细节缺失、形貌噪音多等问题。尽管人类可以为图象提供细致的形貌，但高昂的标注成本限制了其规模和可行性。因此，迫切需要一种高效、可扩展的方法来生成准确且细致的图象形貌。

为了应对上述挑战，来自香港科技大学、武汉大学、浙江大学、UIUC的研究者联合提出了一种创新的自动化框架 ——Image-Textualization（IT），该框架通过整合多模态大谈话模型（MLLMs）和多种视觉专家模型的协作，将图片信息从事文本化，最初应用拥有强大的推理才智的纯文本大谈话模型将这些文本化的信息转化为高质量的图象形貌。

将图象自动文本化，图象形貌质量更高、更准确了

论文：Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions

论文地址：https://arxiv.org/pdf/2406.07502v1

项目地址：https://github.com/sterzhang/image-textualization/

将图象自动文本化，图象形貌质量更高、更准确了

应用多模态模型造的图片形貌 vs 应用 IT 生成的图片形貌

总的来说，本文贡献包括：

创新框架：我们提出了图象文本化框架，应用多模态大模型的的粗粒度图象理解才智，视觉专家模型的精细感知才智，以及纯文本大谈话的模型的推理才智去自动生成细节丰富且谈话表达清晰的图象形貌。

评价基准与实验：提出了多个评价细节丰富的图片形貌的基准，通过广泛的实验考证了框架的有效性。

数据集与代码发布：应用我们的图象文本化框架，我们生成了一个大规模高质量的图象形貌数据集（IT-170K）。为了促进未来的研究，我们已将所有源代码和生成的数据集公开发布。

将图象自动文本化，图象形貌质量更高、更准确了

Image Textualization 方法

Image-Textualization（IT）框架包括以下三个阶段：

1. 粗粒度的图片文本化（Holistic Textualization）：首先应用多模态大谈话模型对图片生成参照形貌，尽管这些形貌可能存在细节缺失和幻觉，但它们为图象的视觉信息和谈话表达提供了基本结构。这里视觉的结构主要体现在参照形貌中往往会包含一些大的，核心的物体，这个可以为后续的细节提供类似 “锚点” 的作用，可以使得最初的文本化重述（Textualized Recaptioning）更好的添加细节。另外，谈话表达上的结构主要体现在多模态大模型包含的纯文本大谈话模型使得其拥有较强的谈话才智，这使得这里生成的参照形貌可以在谈话上有良好的组织，比如会先说出这个图片大概形貌了些什么，然后展开细节，最初总结，这种形貌风格较为偏向人类的偏好。这也可以使得最初的文本化重述（Textualized Recaptioning）可以在一个谈话才智较好的模板上从事加工。

2. 视觉细节文本化（Visual Detail Textualization）：这个阶段我们同时从图片端和文本端从事细节的提炼。

首先是文本端，由于在上一阶段中我们应用多模态大模型生成的参照形貌可能含有幻觉，所以这里首先做的是 “幻觉检测”。我们首先应用 LLM 去抓取参照形貌中含有的实体，再应用了一个开集检测器去图片里对这个实体从事匹配，如果没有被检测进去，则将这个实体判断为幻觉。这里我们把检测进去的幻觉也从事了文本化，在最初的文本化重述（Textualized Recaptioning）从事删除。

将图象自动文本化，图象形貌质量更高、更准确了

在视觉端，我们应用在高分辨率图片上训练进去的各个任务上的视觉专家模型提炼图象中的细节信息。想要将一个图片上的物体的细节信息应用文本表达进去仅仅用物体的 caption 是不够的，我们首先应用提炼这些物体的 bounding box 来把这些物体的左右关系给用文本的方式体现进去。但图片中的物体不仅仅有左右信息，还有前后信息。对此，我们首先应用分割模型将这些物体的 mask 给提炼进去，再将原本的图片转化为深度图，通过计算深度图中特定物体 mask 对应的深度分数来将深度信息由文本体现进去。至此，我们能应用文本还原出图片中各个物体的大小，左右位置，前后关系等细节信息。

将图象自动文本化，图象形貌质量更高、更准确了

3. 文本化重述（Textualized Recaptioning）：结合前两个阶段的图片信息文本化的结果，加上我们通过精心设计的改写 prompt，纯文本的大谈话模型可以很好的通过纯文本还原出图片的信息，并通过强大理解和推理才智生成细致且准确的图象形貌。

全面评价与实验考证

为了考证我们框架的有效性，我们构建了三个评价基准，分别是 DID-Bench（细致图象形貌基准）、D2I-Bench（形貌到图象基准）和 LIN-Bench（谈话基准）。我们从事了广泛的实验，结果表明 IT 框架生成的图象形貌在细节丰富度和准确性方面显著优于现有方法。尤其是，通过我们的 IT 框架生成的数据集训练的 MLLMs，如 LLaVA-7B，展现出了更强的图象形貌才智，减少了幻觉现象。

DID-Bench（细致图象形貌基准）：用于评价图片形貌和人类手动标的细致的图片形貌的相似性。可以看到我们的修改后的 IT-{LLaVA} 和 IT-{GPT4-V} 图片形貌都比修改前的要更细致和准确，更贴合人类标注进去的形貌。

将图象自动文本化，图象形貌质量更高、更准确了