LAMM (Language-Assisted Multi-Modal) 旨在建设面向开源学术社区的多模态指令微调及评测框架,其包括了高度优化的训练框架、周到的评测体系,撑持多种视觉模态。
ChatGPT问世以来,大谈话模型(LLM)兑现了跳跃式发展,鉴于自然谈话进行人机交互的AI范式得到广泛运用。然而,人类与世界的交互中不仅有文本,其他诸如图片、深度等模态也同样重要。然而,目前的多模态大谈话模型(MLLM)研讨大多数闭源,对高校和大多数研讨机构的同学们并不友好。而且,大谈话模型受限于训练知识,往往缺乏时事认知、繁复推理才智,这就如同只能快速问答,没有“深度思考”才智。AI Agent(人工智能代理)则是解决这一问题的关键,它赋予LLM深度思考、繁复决策的才智,使LLM向自主性、反应性、积极性和社交才智特征的智能实体发展。我们相信,AI Agent领域将会诞生更多改变生活工作方式的成果,是大谈话模型及多模态大模型的重要进化方向。
来自北航、复旦大学、悉尼大学、香港中文大学(深圳)等高校与上海人工智能实验室的学者共同推出多模态谈话模型最早的开源社区之一 ——LAMM(Language-Assisted Multi-modal Model)。我们旨在将 LAMM 建设成一个不断发展的社区生态,撑持 MLLM 训练和评测、MLLM 驱动的 Agent 等方向的研讨。作为多模态大谈话模型领域最早的开源项目之一,LAMM 的目标是建立一个开放的研讨社区生态,让每个研讨和开发人员都可以鉴于此开展研讨,共同建设开源社区。
项目主页:https://openlamm.github.io
代码地址:https://www.github.com/OpenGVLab/LAMM
在这里,你可以 :
以最小的计算资源成本训练和评价 MLLM,仅需 3090 或 V100,轻松开始 MLLM 的训练和评测。
建立鉴于 MLLM 的具身智能 Agent,能够使用机器人或游戏模拟器定义工作并生成数据。
在几乎任何专业领域扩展 MLLM 应用。
开源框架
LAMM 代码库兑现了统一的数据集格式、组件式模型设计、一键式分布式训练,方便用户启动和兑现自己专属的多模态谈话模型。
使用标准数据集格式兼容不同指令微调数据集。LAMM 定义了标准化多模态指令微调数据格式,可以多模态指令微调常用的 LLaVA、LAMM、ShareGPT4V 等数据集可以直接无缝适配,一键启动。
组件式搭建模型流程,方便地更新和修改模型架构。LAMM 中模型以视觉编码器(Vision Encoder)、特征映射器(Feature Projector)、谈话模型(LLM)为主要组件。目前 LAMM 已经撑持 Image、Point Cloud 等模态编码器和 LLaMA/LLaMA2 等预训练谈话模型,用户可以自由选择适合需求的模块搭建 pipeline,兑现自己专属的 MLLM。
以最小计算资源训练和评测 MLLM。LAMM Repo 集成了 Deepspeed、LightLLM、flash attention 等加速框架,将训练成本大幅优化。目前已经撑持在 4 张 RTX3090 或更新设备上微调 7B 的谈话模型。同时 LAMM 也在不断跟进新的大谈话模型和优化框架,以推动多模态领域的发展。
鉴于 MLLM 建立具身智能 AI Agent。使用机器人或模拟器定义目标工作并生成相应指令数据后,LAMM 撑持的 MLLM 可以作为强大的 AI Agent 进行决策和分析。
更多详情请参考项目主页。
多模态大谈话模型训练与评测
近期大量工作展现了多模态大模型 (MLLM) 在视觉内容理解和交互上的才智,并且体现出了解决更为繁复的下游工作应用的才智。除了常见的图片输入,LAMM 目前还撑持点云等视觉模态输入,用户也可以根据自己的需求加入新的编码器。同时,LAMM 撑持 PEFT 包进行高效微调,也引入了 flash attention、xformer 等工具进一步优化模型计算成本,使得用户能够用尽可能低的成本训练 MLLM。面对繁复的多工作学习,LAMM 也撑持 MoE 等策略统一多组微调参数,进一步提高模型多工作才智,兑现更全能的 MLLM。
然而,由于缺乏一个标准化的周到评价框架,这些模型的才智和局限性尚未被周到探索,我们仍然无法确认这些模型的才智究竟如何,他们究竟能做什么事情。现有的基准测试工作主要集中于为多模态大模型建立多模态评价数据集,或仅评价了一部分的视觉才智维度,或尝试建立了一个评测框架但缺乏可扩展性和周到性,对各个模型的周到评价和不同模型间进行公平可靠的对比仍然具有挑战性。LAMM 兑现了一种具有高度可扩展性和灵活性的评测框架,旨在为多模态大模型提供一种可靠的、周到的评价。
详情可参考 https://openlamm.github.io/paper_list/ChEF
一键式组合式多模态谈话模型评测框架
鉴于 LAMM 框架的多模态模型才智部分展示如下:
鉴于 2D 图像内容的问答:
鉴于 3D 点云的视觉问答:
多模态大谈话模型驱动的具身 Agent
近期大量工作借助大谈话模型 (LLM) 的强大推理规划才智来建立 Agent,例如 Minecraft 中的 Voyager 和 GITM 都借助 LLM 和文本记忆来规划智能体的行动,但是这些工作都假定智能体可以在规划决策的时候获取所有正确的情况感知信息,直接跳过感知阶段,忽视了实时的第一人称视角图片对具身智能体规划自身行动的影响,这在现实生活中也是不可能存在的。
为了让具身智能体在开放世界繁复情况中更好地感知情况,我们提出了以MLLM驱动的具身智能体MP5,其特点在于具备视觉感知和主动感知才智。视觉感知模块(模型主要架构为LAMM)允许MP5解决以前从未见过的工作,主动感知可以主动获取情况信息,以执行合适动作。最终 MP5 具有开放感知才智,并能根据不同的目的提供量身定制的感知结果,可以完成长时序及繁复情况信息工作。
下面是 MP5 在 Minecraft 这一开放世界中完成「在晴天且光线充足的情况下,找到一头在平原且靠近水附近有草的猪」这一需要繁复情况信息的工作的演示过程。
总结
鉴于 MLLM 的强大才智和广阔应用前景,多模态学习来到了一个全新的阶段。LAMM 旨在建设一个助力多模态大模型研讨的开源社区,并向社区开源了包括数据准备、模型训练、性能评测所有相关数据。
作为最早一批投入多模态谈话模型研讨的团队,我们希望不断发展 LAMM 工具箱,为 LAMM 开源生态提供轻量易用的多模态研讨框架,和开源力量合作,助力更多有意义的研讨。
以上内容均会在 LAMM 主页持续开源,请大家关注我们的主页和项目,也欢迎为 LAMM 代码库多多提交反馈和 PR。