解密FedDAT:首个多模态异构联邦学习高效微调框架,突破数据异构与通信瓶颈!

FedDAT: An Approach for Foundation Model Finetuning in Multi-Modal Heterogeneous Federated Learning一、 一眼概览FedDAT提出了一种创新的双适配器教师框架(Dual-Adapter Teacher, DAT),结合参数高效微调和互知识蒸馏,解决了多模态异构联邦学习(FL)中的数据异构性问题,并在多个视觉-语言任务基准上取得了最优表现。 二、核心问题如何在多模态联邦学习环境中,在数据异构性和通信预算限制下,实现基础模型的高效分布式微调,以提升视觉-语言任务的性能,是本研究的核心问题。 三、 技术亮点1.

FedDAT: An Approach for Foundation Model Finetuning in Multi-Modal Heterogeneous Federated Learning

一、 一眼概览

FedDAT提出了一种创新的双适配器教师框架(Dual-Adapter Teacher, DAT),结合参数高效微调和互知识蒸馏,解决了多模态异构联邦学习(FL)中的数据异构性问题,并在多个视觉-语言任务基准上取得了最优表现。

二、核心问题

如何在多模态联邦学习环境中,在数据异构性和通信预算限制下,实现基础模型的高效分布式微调,以提升视觉-语言任务的性能,是本研究的核心问题。

三、 技术亮点

1. 双适配器教师框架 (DAT):引入冻结的全局适配器和本地优化适配器,以同时捕获客户端无关知识和客户端特定知识,从而缓解数据异构性问题。

2. 互知识蒸馏 (MKD):通过双向蒸馏在全局和本地适配器间高效传递知识,防止遗忘并增强泛化能力。

3. 跨基准任务验证:在多种数据异构类型(视觉、文本、任务)基准上验证,表现出优越的收敛速度和扩展性。

四、方法框架

图片

FedDAT的核心方法框架如下:

1. 全局适配器初始化:服务器初始化共享适配器,并在每轮通信后更新全局参数。

2. 客户端局部优化

• 使用双适配器(本地适配器+冻结的全局适配器)捕获客户端特定和无关知识。

• 通过互知识蒸馏(MKD)在全局适配器和双适配器之间进行知识交换。

3. 联邦聚合:每轮通信后,通过加权平均整合各客户端的全局适配器参数。

五、实验结果速览

图片

FedDAT在4个多模态FL基准上表现出显著优越性:

• 在Domain基准上,FedDAT相较现有最佳方法Adapter,平均准确率提升 4.55%

• 在Function、Scene、Task基准上,分别实现最高 6.02%、7.94%、1.09% 的提升。

• 通过通信轮次分析,FedDAT在仅完成 25%通信预算 时已取得明显性能优势。

六、实用价值与应用

FedDAT在实际应用中具有重要价值,尤其适用于以下场景:

1. 医疗领域:隐私敏感环境下的跨机构协作模型优化。

2. 工业制造:数据分布不一致的多工厂质量检测。

  1. 3. 多模态智能:视觉与文本结合的复杂任务,例如视觉问答(VQA)。

七、开放问题

1. 若加入更大规模的客户端或多模态任务,FedDAT的性能是否能保持稳定?

2. 互知识蒸馏机制在其他FL应用中(如时间序列分析)是否同样适用?

3. 在极端数据异构性(如领域迁移任务)下,DAT框架的泛化能力是否受限?

其他

• 论文的官方期刊或会议来源:https://ojs.aaai.org/index.php/AAAI/article/view/29007

• 注:所有免费资料获取链接:https://link3.cc/soragpt

相关资讯

人大清华提出自主搜索版「Search-o1」!解决知识困境,大幅提升推理模型可靠性

自OpenAI发布o1以来,如何复现并改进o1就成为了LLM研究的焦点。 尽管以OpenAI-o1、Qwen-QwQ和DeepSeek-R1为代表的推理模型,其推理能力已然震惊四座,但由于在长链推理过程中仍然面临着「知识不足」的问题,导致这些模型在推理过程还包含着一些不确定性和潜在错误。 类似于OpenAI-o1在处理复杂问题时,每次推理过程中平均会遇到超过30个不确定术语实例,如「或许」和「可能」。

中科院北大等揭示「蒸馏真相」:除Claude豆包Gemini,其他很多模型都「蒸」过头

模型蒸馏是一种将知识从大型语言模型(LLMs)转移到较小模型的技术,旨在创建资源高效且性能卓越的模型。 然而,过度蒸馏可能会导致同质化,降低模型之间的多样性,并削弱它们稳健处理复杂或新任务的能力。 这些限制凸显了系统地量化蒸馏过程及其影响的必要性。

模型压缩70%!精度更高!开源MoDec-GS:更紧凑、更精确的动态3DGS

本文经3D视觉之心公众号授权转载,转载请联系出处。 论文信息标题:MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting作者:Sangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim机构:ETRI, South Korea、KAIST, South Korea、Chung-Ang University, South Korea原文链接::. 导读3D Gaussian Splatting (3DGS)在场景表示和神经渲染方面取得了重大进展,并致力于使其适应动态场景。