AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
多模态融会是多模态智能中的基础恣意之一。
多模态融会的动机在于共同利用来自分别模态的有效信息提升下游恣意的准确性和稳定性。传统的多模态融会格式每每依赖高品质数据,难以适应现实应用中的复杂低质的多模态数据。
由天津大学、中国人民大学、新加坡科技研究局、四川大学、西安电子科技大学以及哈尔滨工业大学(深圳)共同发布的低质多模态数据融会综述《Multimodal Fusion on Low-quality Data:A Comprehensive Survey》从统一视角介绍了多模态数据的融会挑战,并针对低质多模态数据的现有融会方式及该领域潜在的发展方向从事了梳理。
arXiv链接:
http://arxiv.org/abs/2404.18947
awesome-list链接:
https://github.com/QingyangZhang/awesome-low-quality-multimodal-learning
传统多模态融会模型
人类通过融会多个模态的信息对世界从事感知。
即使某些模态的信号不可靠时,人类也具备处理这些低品质多模态数据信号并感知环境的能力。
尽管多模态进修已取得了长足的发展,多模态机器进修模型仍缺乏有效融会真实世界中低品质多模态数据的能力。实践经验中,传统多模态融会模型的性能在以下场景下会存在显著下降:
(1)噪声多模态数据:部分模态的某些特征受噪声扰动而丢失了原有的信息。真实世界中,未知的环境因素、传感器故障、信号在传输过程中的丢失都可能引入噪声的干扰,进而损害多模态融会模型的可靠性。
(2)缺失多模态数据:由于各种现实因素,实际收集到的多模态数据样本的某些模态可能存在缺失。例如在医学领域,病人的各项生理检查结果所构成的多模态数据可能存在严重的缺失现象,某些病人可能从未做过某一项检查。
(3)不倾斜多模态数据:由于模态之间的异质编码属性和信息品质悬殊存在不一致的现象,进而导致模态间进修不倾斜成绩的出现。多模态融会过程中,模型可能过度依赖某些模态,而忽视其他模态所包含的潜在有效信息。
(4)静态低质的多模态数据:由于应用环境的复杂多变,分别样本、分别时空,模态品质具有静态变化特性。低质模态数据的出现每每难以提前预知,这为多模态融会带来了挑战。
为了充分刻画低品质多模态数据的性质及处理格式,该文章对目前的低品质多模态融会领域的机器进修格式从事了总结,系统回顾了该领域的发展过程,并进一步展望了需进一步研究的成绩。
图1. 低品质多模态数据分类示意图,黄色和蓝色代表两个模态,颜色越深代表品质越高
多模态融会中的去噪格式
成绩定义:
噪声是导致多模态数据品质下降的最常见原因之一。
本文主要关注两类噪声:
(1)模态相关的多模态噪声。这类噪声可能是由于传感器误差(如医疗诊断中的仪器误差)、环境因素(如自动驾驶中的雨雾天气)等因素导致,噪声局限于某个特定的模态内部的某些特征层面上。
(2)语义级别的跨模态噪声。这类噪声是由模态之间高层语义的不对齐现象导致,相比于特征层的多模态噪声更难以处理。幸运的是,由于多模态数据模态之间的互补性和信息的冗余性,在多模态融会过程中,共同多个模态的信息从事去噪已被证明是行之有效的策略。
格式分类:
特征级别的多模态去噪格式高度依赖于实际恣意中所涉及到的具体模态。
本文主要以多模态图象融会恣意为例从事说明。在多模态图象融会中,主流的去噪格式包括加权融会及共同变分两大类。
加权融会格式考虑到特征噪声具有随机性而真实数据服从特定分布,进而通过加权求和的方式消除噪声的影响;
共同变分格式则是对传统单模态图象变分去噪的拓展,能够将去噪过程转化为优化成绩的求解过程,并利用来自多个模态的互补性信息来提升去噪效果。语义级别的跨模态噪声由弱对齐或不对齐的多模态样本对导致。
例如,在共同RGB和热感图象的多模态方针检测恣意中,由于传感器的悬殊,尽管同一个方针在两个模态中都有出现,但是其精准的位置和姿态在分别的模态中可能略有分别(弱对齐),为精准估计位置信息带来了挑战。
在社交媒体的内容理解恣意中,一个样本(例如一条微博)的图象和文本模态所包含的语义信息可能相差甚远,甚至毫不相干(完全不对齐),这进一步为多模态融会带来更大的挑战。处理跨模态语义噪声的方式包括规则过滤、模型过滤、噪声鲁棒的模型正则化等格式。
未来展望:
尽管对数据噪声的处理早已在经典机器进修恣意中得到了广泛的研究,但在多模态场景下,如何共同利用模态之间的互补性和一致性以弱化噪声的影响依然是一个亟待解决的研究成绩。
此外,与传统的特征级别的去噪分别,如何在多模态大模型的预训练和推断过程中解决语义级别的噪声是有趣且极富挑战性的成绩。
表1. 针对噪声的多模态融会格式分类
缺失多模态数据融会格式
成绩定义:
真实场景下所收集的多模态数据每每是不完整的,由于存储设备损坏、数据传输过程的不可靠等各种因素,多模态数据时常不可避免的丢失掉部分模态的信息。
例如:在推荐系统中,用户的浏览记录和信用等级等构成了多模态的数据,然而,由于权限和隐私成绩,每每无法完全收集到用户所有模态的信息来构建多模态进修系统。
在医疗诊断中,由于某些医院的设备有限、特定的检查成本较高,分别的病人的多模态诊断数据每每也是高度不完整的。
格式分类:
按照「是否需要显式的对缺失多模态数据从事补全」的分类原则,缺失多模态数据融会格式可分为:
(1)鉴于补全的多模态融会格式
鉴于补全的多模态融会格式包括模型无关的补全格式:例如直接通过对缺失模态填充0值或残余模态的均值的补全格式;
鉴于图或核的补全格式:这类格式不直接进修如何补全原始多模态数据,而是为每个模态构造图或核,进而进修样本对之间的相似度或关联度信息,进而对缺失数据从事补全;
直接在原始特征级别从事补全:部分格式利用生成模型,如生成对抗网络GAN及其变体直接补全缺失的特征。
(2)无需补全的多模态融会格式。
与鉴于补全的格式分别,无需补全的格式重点关注如何利用未缺失的模态所包含的有用信息融会出尽可能好的表征,这类格式每每对期望进修到的统一表征添加约束,使得此表征能够体现可观察到的模态数据的完整信息,以绕开补全过程从事多模态融会。
图2. 鉴于补全的缺失多模态数据融会格式分类
未来展望:
尽管目前国内外已提出了许多格式来解决聚类、分类等经典机器进修恣意中的不完整多模态数据融会成绩,但依然存在一些更深层次的挑战。
例如:关于缺失模态补全方案中的补全数据的品质评估通常被忽视。
此外,利用先验缺失数据位置信息屏蔽缺失模态的策略本身难以弥补模态缺失带来的信息鸿沟和信息不倾斜成绩。
表2. 针对缺失多模态数据的融会格式分类
倾斜的多模态融会格式
成绩定义:
在多模态进修中,通常用共同训练的方式整合分别模态数据以提高模型的整体性能和泛化表现。然而,这类广泛采用的、使用统一进修方针的共同训练范式忽略了分别模态数据的异质性。
一方面,分别模态在数据来源及形式方面的异质性,使得它们在收敛速度等方面具有分别的特点,从而使所有模态难以同时得到很好的处理和进修,给多模态共同进修带来了困难;
另一方面,这种悬殊也反映在单模态数据的品质上。尽管所有模态都描述了相同的概念,但它们与方针事件或方针对象相关的信息量却各不相同。鉴于最大似然进修方针的深度神经网络具有贪婪进修的特点,导致多模态模型每每依赖于具有高判别信息的、较易进修的高品质模态,而对其他模态信息建模不足。
为了应对这些挑战并提高多模态模型的进修品质,倾斜多模态进修的相关研究最近得到了广泛关注。
格式分类:
按照倾斜角度的分别,可将相关格式分为鉴于特性悬殊的格式和鉴于品质悬殊的格式。
(1)广泛使用的多模态共同训练框架每每忽视了单模态数据固有的进修属性悬殊,这可能会对模型的性能产生负面影响。鉴于特性悬殊的格式是从每种模态在进修特性上的悬殊入手,在进修方针、优化、架构方面尝试解决这一成绩。
(2)最近的研究进一步发现,多模态模型每每严重依赖于某些高品质信息模态,而忽略了其他模态,导致对所有模态进修不足。鉴于品质悬殊的格式从这一角度入手,从进修方针、优化格式、模型架构和数据增强的角度尝试解决这一成绩并促进多模态模型对分别模态的均衡利用。
表3. 倾斜多模态数据融会格式分类
未来展望:
倾斜多模态进修格式主要针对多模态数据的异质性所导致的分别模态间进修特性或数据品质上的悬殊。这些格式从进修方针、优化格式、模型架构和数据增强等分别角度提出了解决方案。
倾斜多模态进修当前是一个蓬勃发展的领域,有很多理论和应用方向还没有得到充分探索。例如,目前的格式主要局限于典型的多模态恣意,其大多是判别性恣意和少数生成性恣意。
除此以外,多模态大模型也需要共同具有分别品质的模态数据,也存在这种客观上的不倾斜成绩,据此期望在多模态大模型场景中扩展现有研究或设计新的解决方案。
静态多模态融会格式
成绩定义:
静态多模态数据指的是模态的品质随输入样本、场景的分别而静态改变。例如自动驾驶场景中,系统通过RGB和红外传感器获取路面和方针信息,在光照较好的情况下,RGB摄像头由于能够捕捉方针的丰富纹理和色彩信息,可以更好地支持智能系统的决策;
然而在光照不足的夜间,红外传感器提供的感知信息则更为可靠。如何使得模型能够自动感知到分别模态品质的变化,从而从事精准和稳定的融会,是静态多模态融会格式的核心恣意。
表4. 静态多模态融会格式分类
格式分类:
静态多模态融会格式可以大致分为三类:
(1)启发式静态融会格式:
启发式静态融会格式依赖算法设计者对多模态模型应用场景的理解,一般通过针对性地引入静态融会体制来实现。
例如,在RGB/热感信号协同的多模态方针检测恣意中,研究者启发式地设计了光照感知模块以静态评估输入图象的光照情况,并鉴于光照强度静态调节RGB和热感模态的融会权重从事环境适应。当亮度较高时,主要依赖RGB模态从事决策,反之则主要依赖热感模态从事决策。
(2)鉴于注意力体制的静态融会格式:
鉴于注意力体制的静态融会格式主要聚焦于表示层融会。注意力体制本身就具有静态特性,因此,可以自然地用于多模态静态融会恣意。
Self-attention、Spatial attention、Channel attention以及Transformer等多种体制被广泛用于多模态融会模型的构建。这类格式在恣意方针的驱动下自动地进修如何从事静态融会。鉴于注意力体制的融会,在缺乏显式或者启发式引导情况下也能够一定程度上适应静态低品质的多模态数据。
(3)不确定性感知的静态融会格式:
不确定性感知的静态融会格式每每具有更加清晰、可解释的融会体制。与鉴于注意力体制的复杂融会模式分别,不确定性感知的静态融会格式依靠对模态的不确定性估计(如证据、能量、熵等)来适应低品质多模态数据。
具体地,不确定性感知能够用于刻画输入数据各个模态的品质变化情况。当输入样本的某个模态品质变低时,模型鉴于该模态决策的不确定性随之变高,为后续融会体制设计提供明确指导。此外,相比于启发式和注意力体制,不确定性感知的静态融会格式可以提供良好的理论保证。
未来展望:
尽管在传统的多模态融会恣意中,不确定性感知的静态融会格式的优越性已经从实验和理论上得到了证明,但是,在SOTA的多模态模型(不限于融会模型,如CLIP/BLIP等)中,静态性的思想还具有较大挖掘和应用潜力。
此外,具有理论保证的静态融会体制每每局限于决策层面,如何使得其在表征层发挥作用也值得思考和探索。