AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实行室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
该文章的作者团队来自于哈工大社会计算与信息检索钻研中心,作者团队构成:郑子豪、张梓涵、王泽鑫、付瑞吉、刘铭、王仲远、秦兵。
多模态表达
多模态定名实体辨别,作为构建多模态知识图谱的一项基础而关键任务,要求钻研者调整多种模态信息以精准地从文本中提取定名实体。尽管以往的钻研已经在分别层次上探索了多模态表达的调整要领,但在将这些多模态表达混合以提供丰富上下文信息、进而提升多模态定名实体辨别的功能方面,它们仍显不足。
本文,钻研团队提出了DPE-MNER,一个创新的迭代推理框架,它遵循“领会、优先、解除”的方略,动态地调整了多样化的多模态表达。该框架巧妙地将多模态表达的混合领会为层次化且相互连接的混合层,极大地简化了处理历程。在调整多模态信息时,该团队特别强调了从“简单到复杂”和“宏观到微观”的渐进式过渡。此外,通过显式地建模跨模态的相关性,钻研团队有效地排除了那些可能对MNER预计造成误导的不相关信息。通过在两个公共数据集上进行的广泛实行,钻研团队的要领已被证实在提升多模态定名实体辨别的准确性和效率方面具有显著效果。本文为LREC-COLING 2024 1558篇录用论文中的十篇最佳论文候选之一。
论文链接:https://aclanthology.org/2024.lrec-main.403.pdf
动机
多模态定名实体辨别的一个实例。钻研团队展示了对于定名实体辨别决策可能有用的多种多模态表达。人类通常在心中以迭代的方式处理这些信息。
为解决这一问题,钻研团队从复杂问题解决(Sternberg 和 Frensch,1992)这一领域中获得灵感。该领域专注于钻研人类和计算机在解决包含多个变量、不确定性和高复杂性的问题时所采用的要领和方略。首先他们认为,当面对复杂问题时,人类一般会采用迭代的处理方式,如图所示,钻研团队在处理MNER时其实也是个迭代的历程。其次,人类会运用特定方略来简化这些问题,比如领会、优先排序和排除不相关因素。
该钻研团队认为,将多模态定名实体辨别(MNER)视为一个调整多模态信息的迭代历程,并运用这些方略,非常适合于MNER任务。与单一步骤的要领相比,多步骤的要领能够在迭代优化定名实体辨别(NER)结果的历程中,更全面地利用多样化的多模态表达。
此外,这三种方略非常适合于多模态NER中多种表达的调整:
领会方略鼓励我们将多模态表达的混合拆分为更小、更易于处理的单元,这些单元能够在分别的粒度级别上探索多模态交互。
优先排序方略建议根据“由易到难”和“由粗到细”的顺序来调整多模态信息;这种渐进式的调整有助于MNER预计的逐步优化。这使得模型能够逐步将注意力从简单但粗糙的信息转移到复杂但精确的细节上。
不相关性解除方略启发我们显式地筛选并排除分别多模态表达中的无关信息;这可以解除那些可能影响MNER功能的无关信息。
要领
钻研团队设计了一个迭代的动态混合多种多模态特色的多模态实体抽取框架,其包含一个迭代历程以及预计搜集。
迭代建模MNER
钻研团队沿用扩散模型将物体辨别,视觉对齐以及文本实体抽取建模为迭代的去噪历程的方式,同样使用了扩散模型将多模态实体抽取建模为迭代历程。模型首先随机初始化一系列的实体区间,基于一个预计搜集编码多模态特色来在去噪历程中迭代地去噪失去文本中的正确实体区间。
预计搜集
如图所示,钻研团队共获取了文本中的三种粒度的表达,图片中的两种粒度两种难度(他们认为对齐的表达是简单的表达,不对齐的是困难的表达)的表达。该团队的预计搜集AMRN包含一个编码搜集(DMMF)以及解码搜集(MER)。预计搜集的设计是基于前面所提到的三种方略。
如图所示,编码搜集是一个层次化的混合搜集,将多种多模态特色混合领会为了一个层次化的历程。自底向上是首先将相同粒度分别难度的图片特色混合到每个粒度的文本特色中$x_i$, 将分别粒度的图片特色$Y$混合到每个粒度的文本特色,最后将分别粒度的图片特色Y和文本特色X混合,失去最终的多模态表达。输入到解码搜集中进行解码,解码搜集失去新的区间,以及每个区间的实体类型。
底层混合。这一层钻研团队将某一个粒度的图片特色混合到某一个粒度的文本特色中。根据扩散历程,钻研团队可以失去一个调度器,该调度器可以反映当前的迭代的状态,也是引入优先级的关键。钻研团队基于该调度器将分别难度的图片特色混合在一起失去与相关性rel,用于解除其中的无关信息。最后结合该相关性使用了一个bottleneck transformer来进行与的混合,失去了某一粒度的多模态图像文本混合表达。
中层混合。这一层钻研团队将分别粒度的图片特色混合到某一个粒度的文本特色中,即混合。这一层我们使用了调度器来对分别粒度的图片特色进行动态混合,失去了某一粒度的多模态文本表达。
顶层混合。这一层钻研团队将分别粒度的多模态文本表达混合到区间的表达中,失去总的多模态的文本表达,输入到解码搜集中进行预计。
实行结果
主实行
作者团队对比了MNER的一些典型的要领。实行结果表明该要领在两个常用的数据集上取得了最佳的功能。
消融实行
钻研者分别去除了我们论文中关于优先级、层次化、以及解除的设计,来观察模型功能,结果表明移除各个设计均带来了功能的下降。
与静态特色混合要领的对比
他们对比了一些典型的静态多模态混合要领,例如最大池化,平均池化,基于MLP以及MoE的要领,结果表明他们所提出的动态混合框架能达到最好的功能。
典型样例分析
钻研团队选取了两个有代表性的样例来表明迭代历程。可以看到最开始的迭代步骤里,time square和cubs的类型被错误地预计了;然而根据图片中的重要特色线索,迭代地修正为了正确的实体类型。
结论
本文旨在多模态定名实体辨别(MNER)领域内,充分地发挥各种多模态表达的潜力,以期获得卓越的辨别效果。为此,作者们设计并提出了一种创新的迭代推理框架——DPE-MNER。DPE-MNER通过将MNER任务领会为多个阶段,巧妙地简化了对这些丰富多样的多模态表达的调整历程。在这一迭代历程中,多模态表达依据“领会、优先排序和解除”的方略,实现了动态的混合与调整。通过一系列严谨的实行验证,钻研团队充分展示了DPE-MNER框架的显著效果和优越功能。
参考文献:
[1] Knowledge Graphs Meet Multi-Modal Learning: Comprehensive Survey, arxiv
[2] Decompose, Prioritize, and Eliminate: Dynamically Integrating Diverse Representations for Multi-modal Named Entity Recognition,2024,Joint International Conference on Computational Linguistics, Language Resources and Evaluation
[3] Complex problem solving : Principles and mechanisms,1992, American Journal of Psycholog
[4] DiffusionNER: Boundary Diffusion for Named Entity Recognition, ACL23
[5] DiffusionDet: Diffusion Model for Object Detection, ICCV23
[6] Language-Guided Diffusion Model for Visual Grounding, arxiv23