框架
解密FedDAT:首个多模态异构联邦学习高效微调框架,突破数据异构与通信瓶颈!
FedDAT: An Approach for Foundation Model Finetuning in Multi-Modal Heterogeneous Federated Learning一、 一眼概览FedDAT提出了一种创新的双适配器教师框架(Dual-Adapter Teacher, DAT),结合参数高效微调和互知识蒸馏,解决了多模态异构联邦学习(FL)中的数据异构性问题,并在多个视觉-语言任务基准上取得了最优表现。 二、核心问题如何在多模态联邦学习环境中,在数据异构性和通信预算限制下,实现基础模型的高效分布式微调,以提升视觉-语言任务的性能,是本研究的核心问题。 三、 技术亮点1.
贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行
论文一作刘少腾,Adobe Research实习生,香港中文大学博士生(DV Lab),师从贾佳亚教授。 主要研究方向是多模态大模型和生成模型,包含图像视频的生成、理解与编辑。 作者Tianyu Wang、Soo Ye Kim等均为Adobe Research Scientist。
模型压缩70%!精度更高!开源MoDec-GS:更紧凑、更精确的动态3DGS
本文经3D视觉之心公众号授权转载,转载请联系出处。 论文信息标题:MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting作者:Sangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim机构:ETRI, South Korea、KAIST, South Korea、Chung-Ang University, South Korea原文链接::. 导读3D Gaussian Splatting (3DGS)在场景表示和神经渲染方面取得了重大进展,并致力于使其适应动态场景。
中科院北大等揭示「蒸馏真相」:除Claude豆包Gemini,其他很多模型都「蒸」过头
模型蒸馏是一种将知识从大型语言模型(LLMs)转移到较小模型的技术,旨在创建资源高效且性能卓越的模型。 然而,过度蒸馏可能会导致同质化,降低模型之间的多样性,并削弱它们稳健处理复杂或新任务的能力。 这些限制凸显了系统地量化蒸馏过程及其影响的必要性。
人大清华提出自主搜索版「Search-o1」!解决知识困境,大幅提升推理模型可靠性
自OpenAI发布o1以来,如何复现并改进o1就成为了LLM研究的焦点。 尽管以OpenAI-o1、Qwen-QwQ和DeepSeek-R1为代表的推理模型,其推理能力已然震惊四座,但由于在长链推理过程中仍然面临着「知识不足」的问题,导致这些模型在推理过程还包含着一些不确定性和潜在错误。 类似于OpenAI-o1在处理复杂问题时,每次推理过程中平均会遇到超过30个不确定术语实例,如「或许」和「可能」。
图像编辑大一统?多功能图像编辑框架Dedit:可基于图像、文本和掩码进行图像编辑
本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍一个基于图像和文本的编辑的框架D-Edit,它是第一个可以通过掩码编辑实现图像编辑的项目,近期已经在HuggingFace开放使用,并一度冲到了热门项目Top5。 使用 D-Edit 的编辑流程。
啥是AI Agent!2025年值得推荐入坑AI Agent的五大工具框架!
在AI技术飞速发展的今天,AI Agent已经成为了一个热门的研究和应用领域。 无论是企业还是个人开发者,都希望能够借助AI Agent来提升工作效率、优化业务流程或创造全新的用户体验。 然而,从零开始构建一个AI Agent并非易事,幸运的是,市面上有许多优秀的框架可以帮助我们快速入坑。
【LLM&Agent】PPTAgent:PPT自动生成Agent框架
来看一个PPT生成思路:PPTAgent。 传统的PPT生成方法通常使用端到端的文本生成范式,这种方法仅关注文本内容,忽略了布局设计和PPT结构。 PPTAgent 采用了一种基于编辑的生成范式,解决处理空间关系和设计风格方面的挑战。
2024 Github 十大最佳 RAG 框架
检索增强生成(RAG)已成为增强大型语言模型能力的一项强大技术。 RAG 框架结合了基于检索的系统和生成模型的优势,可以做出更准确、更能感知上下文和更及时的响应。 随着对复杂人工智能解决方案需求的增长,GitHub 上出现了许多开源 RAG 框架,每个框架都具有独特的特性和功能。
一键生成万字专利!中科院发布多智能体框架AutoPatent,含1933个「草稿-专利」数据对
在科技日新月异的今天,专利作为保护创新成果的重要法律工具,其撰写过程却往往繁琐且耗时,传统的专利撰写工作通常由熟悉专利法律和技术领域的专利代理人完成,这一过程耗时费力,且效率较低。 因此,开发一种能够自动化生成高质量专利文档的方法,对于提高专利撰写的效率和准确性具有重要意义。 最近,来自中科院深圳先进院和大连理工大学的研究团队联合开发了一个名为AutoPatent的自动化的多智能体专利生成框架,能够在十分钟左右的时间依据发明人的专利技术底稿生成一篇完整的专利文档。
边缘AI框架全解析:谁是你的最佳选择?
随着人工智能技术的飞速发展,将AI模型部署到本地设备的需求日益增长。 本地AI框架应运而生,为开发者提供了一系列工具和库,使得在设备端运行复杂的AI模型成为可能。 本文将对当前流行的本地AI框架进行深入比较,帮助我们选择最适合的工具。
一次示范让Agent适应各种新环境,浙大杭电智能体框架入选NeurIPS
只需一次人类示范,就能让智能体适应新环境? 来自杭州电子科技大学和浙江大学的研究者,提出了一套新的智能体框架AutoManual。 该研究有效解决了智能体过度依赖人类专家提供的知识,难以自主适应新环境的问题。
DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成
在多模态AI领域,基于预训练视觉编码器与MLLM的方法(如LLaVA系列)在视觉理解任务上展现出卓越性能。 而基于Rectified Flow的模型(如Stable Diffusion 3及其衍生版本)则在视觉生成方面取得重大突破。 能否将这两种简单的技术范式统一到单一模型中?
提升 1.5~20 倍吞吐量,字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架
字节跳动豆包大模型团队与香港大学公开联合研究成果 —— HybridFlow。 官方宣称,HybridFlow(开源项目名:veRL)是一个灵活且高效的大模型 RL 训练框架,兼容多种训练和推理框架,支持灵活的模型部署和多种 RL 算法实现。 该框架采用混合编程模型,融合单控制器(Single-Controller)的灵活性和多控制器(Multi-Controller)的高效性,可更好实现和执行多种 RL 算法,显著提升训练吞吐量,降低开发和维护复杂度。
Swarm 框架登场:OpenAI 第 3 阶段“敲门砖”,让专业的事交给专业的 AI 智能体做
科技媒体 marktechpost 昨日(10 月 11 日)发布博文,报道称 OpenAI 公司推出了 Swarm 框架,旨在解决开发者在多智能体系统编排中面临的复杂挑战。Swarm 框架通过简化智能体的协调、执行和测试过程,让开发者能够更高效地管理、互动多个 AI 智能体。OpenAI 朝 AI 第 3 阶段迈进根据 OpenAI 公布五级量表,最新推出的 o1 模型处于第二阶段,即所谓的“推理者”(reasoners),而开发 multi-agent 符合第三阶段的目标要求。
《人工智能安全治理框架》1.0 版发布
感谢据央视新闻今日报道,在 2024 年国家网络安全宣传周主论坛上,全国网络安全标准化技术委员会发布《人工智能安全治理框架》1.0 版。制定该《框架》旨在落实《全球人工智能治理倡议》,遵循“以人为本、智能向善”的发展方向,推动政府、国际组织、企业、科研院所、民间机构和社会公众等各方,就人工智能安全治理达成共识、协调一致,有效防范化解人工智能安全风险。《框架》提出了包容审慎、确保安全,风险导向、敏捷治理,技管结合、协同应对,开放合作、共治共享等人工智能安全治理的原则。针对模型算法安全、数据安全和系统安全等内生安全风险
蚂蚁集团金融多智能体框架正式开源
5月25日,第七届数字中国建设峰会上,蚂蚁集团正式开源多智能体框架agentUniverse,这是行业首个开源的金融领域多智能体技术框架,该框架核心提供了多智能体协作编排组件,允许开发者对多智能体协作模式进行开发定制,可帮助开发者加快大模型技术在金融场景的落地研发。(图说:蚂蚁集团财富保险事业群智能服务部总经理陆鑫,发布首个开源的金融场景多智能体框架)智能体可简化用户与大模型的互动,允许用户只需指定目标,即可驱动大模型完成任务。据IDC发布的《2024 AIGC应用层十大趋势》报告,智能体将是大模型落地业务场景的主
微软 AI 框架 AutoDev 欲改变开发者角色:从“敲代码”变为项目“监管者”
微软公司近日发表论文,概述了名为 AutoDev 的人工智能(AI)框架,希望实现完全自动化软件项目开发,让开发人员从中抽离出来成为“单纯的监管者”。AutoDev 支持文件编辑、检索、构建流程、执行、测试和 git 操作等。AutoDev 框架可以自动分析软件项目的需求,合理搭配开发环境、自动开发和调试代码,只需要少量甚至不需要开发者就能自动化完成软件项目,让开发人员不再枯燥地敲代码,而是扮演“监督者”的角色,测试和审查 AI 生成的代码。IT之家翻译报告部分内容如下:开发人员在 AutoDev 框架中的角色,从