最强开源多模态生成模型MM-Interleaved：首创特征同步器

2024-02-01 02:34

过去几个月中，随着 GPT-4V、DALL-E 3、Gemini 等重磅工作的相继推出，「AGI 的下一步」—— 多模态生成大模型迅速成为全球学者瞩目的焦点。想象一下，AI 不仅会聊天，还长了「眼睛」，能看懂图片，甚至还会通过画画来表达自己！这意味着，你可以和它们谈天说地，分享图片或视频，它们也同样能用图文并茂的方式回应你。最近，上海人工智能实验室联合香港中文大学多媒体实验室（MMLab）、清华大学、商汤科技、多伦多大学等多家高校、机构，共同发布了一个多才多艺的最强开源多模态生成模型 MM-Interleaved，

过去几个月中，随着 GPT-4V、DALL-E 3、Gemini 等重磅工作的相继推出，「AGI 的下一步」—— 多模态生成大模型迅速成为全球学者瞩目的焦点。

想象一下，AI 不仅会聊天，还长了「眼睛」，能看懂图片，甚至还会通过画画来表达自己！这意味着，你可以和它们谈天说地，分享图片或视频，它们也同样能用图文并茂的方式回应你。

最近，上海人工智能实验室联合香港中文大学多媒体实验室（MMLab）、清华大学、商汤科技、多伦多大学等多家高校、机构，共同发布了一个多才多艺的最强开源多模态生成模型 MM-Interleaved，借助全新提出的多模态特征同步器刷新多项任务 SOTA。它拥有对高分辨率图像细节和微妙语义的精准理解能力，支持任意穿插的图文输入和输出，带来了多模态生成大模型的崭新突破。

论文地址：https://arxiv.org/pdf/2401.10208.pdf

项目地址：https://github.com/OpenGVLab/MM-Interleaved

模型地址：https://huggingface.co/OpenGVLab/MM-Interleaved/tree/main/mm_interleaved_pretrain

MM-Interleaved 可以轻松编写引人入胜的旅游日志和童话故事，准确理解机器人操作，就连分析电脑和手机的 GUI 界面、创作独特风格的精美图片都不在话下。甚至，它还能教你做菜，陪你玩游戏，成为随时听候指挥的个人助理！话不多说，直接看效果：

轻松理解复杂多模态上下文

MM-Interleaved 可以根据图文上下文自主推理生成符合要求的文本答复，它既能算水果数学题：

也能结合常识推理出 Logo 图像对应的公司并进行介绍：

还能精确识别用红色圆圈标注出的手写文字内容：

此外，模型也能直接理解通过序列图像表示的机器人动作：

以及在 Minecraft 中如何建造围栏这样的游戏操作：

甚至能结合上下文，手把手地教用户如何在手机 UI 界面上配置灰度：

以及精准定位找到那架藏在后面的小飞机：

脑洞全开生成不同风格图像

MM-Interleaved 模型同样可以出色地完成各种复杂的图像生成任务。比如根据用户提供的详细描述生成一张三角钢琴的剪影：

或者当用户以多种形式指定所需生成的图像应当包含的物体或风格时，MM-Interleaved 框架也可轻松应对。

比如生成一张水彩风格的大象：

按照狗的风格生成一张猫的画：

在向日葵花丛里的一座木房子：

以及在生成海浪图像时，根据上下文智能推断相应的风格。

图像生成兼顾空间一致性

更令人惊喜的是，MM-Interleaved 还具备根据输入的分割图和对应的文本描述生成图像的能力，并确保生成的图像与分割图在空间布局上保持一致。

这一功能不仅展示了模型在图文生成任务中的卓越表现，同时也为用户提供了更加灵活和直观的操作体验。

自主生成图文并茂的文章

此外，只需提供一个简单的开头，MM-Interleaved 就能自主进行续写，生成语义连贯、图文并茂的文章，题材多样。

无论是关于一朵玫瑰的童话故事：

教你制作苹果汁的教程指南：

还是卡通动漫中的情节片段：

MM-Interleaved 框架都展现出了卓越的创造力。这使得 MM-Interleaved 框架成为了一个无限创意的智能合作者，能够帮助用户轻松打造引人入胜的图文作品。

MM-Interleaved 致力于解决图文交错多模态大模型训练中的核心问题，通过深入研究提出了一种全新的端到端预训练框架。

基于 MM-Interleaved 训练的模型，在参数量更少、不使用私有数据的情况下，不仅在多个零样本多模态理解任务上表现优越，领先于国内外最新研究工作，如 Flamingo、Emu2 等。

还能进一步通过监督微调的方式，在视觉问答（VQA），图像描述（image caption）、指代理解（referring expression comprehension）、图生图（segment-to-image generation）、视觉故事生成（visual storytelling）等多个下游任务上取得更为优异的综合性能。

目前模型的预训练权重及相应代码实现均已在 GitHub 开源。

多模态特征同步器携手全新端到端训练框架

MM-Interleaved 提出了一种全新的端到端训练框架，专门面向图文交错数据。

该框架支持多尺度的图像特征作为输入，不对图像和文本的中间特征添加任何额外约束，而是直接采用预测下一个文本 token 或下一张图像的自监督训练目标，实现单阶段的统一预训练范式。

与以往方法相比，MM-Interleaved 不仅支持交错生成文本和图像，还能高效捕捉图像中更多的细节信息。

此外，MM-Interleaved 的关键实现还包括一个通用的多模态特征同步器（Multi-modal Feature Synchronizer）。

该同步器能够动态注入多张高分辨率图像的细粒度特征到多模态大模型和图像解码器中，实现了对文本和图像的解码生成的同时进行跨模态的特征同步。

这一创新设计使得 MM-Interleaved 为多模态大模型领域的发展注入了新的活力。

多项任务性能领先

如表 1 和表 3 所示，MM-Interleaved 在零样本多模态理解和生成任务上均取得了卓越的性能。这一成就不仅证明了该框架的强大能力，也突显了其在应对多样化任务时的强大通用性。

表 2 和表 4 展现了 MM-Interleaved 在进行进一步微调后的实验结果，其在指代理解、基于分割图生成图像、图文交错生成等多个下游任务上的性能也十分优异。

这表明 MM-Interleaved 不仅在预训练阶段表现出色，而且在具体任务微调后依然能够保持领先地位，从而为多模态大模型的广泛应用提供了可靠的支持。

结论

MM-Interleaved 的问世标志着多模态大模型的发展朝着实现全面端到端的统一建模和训练迈出了关键一步。

这一框架的成功不但体现在其预训练阶段所展现的卓越性能，而且还体现在微调后在各个具体下游任务上的全面表现。

其独特的贡献不仅在于展示了强大的多模态处理能力，更为开源社区构建新一代多模态大模型开启了更为广阔的可能性。

MM-Interleaved 也为未来图文交错数据的处理提供了新的思路和工具，为实现更加智能、灵活的图文生成和理解奠定了坚实基础。

我们期待看到这一创新为更多领域相关应用带来更多惊喜。

微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

差不多已经掌握语言能力的大模型正在进军视觉领域，但具有里程碑意义的 GPT-4V 也仍有诸多不足之处，参阅《试过 GPT-4V 后，微软写了个 166 页的测评报告，业内人士：高级用户必读》。近日，微软 Azure AI 将 GPT-4V 与一些专用工具集成到一起，打造出了更强大的 MM-Vid，其不仅具备其它 LMM 的基本能力，还能分析长达一小时的长视频以及解说视频给视障人士听。世界各地的人们每天都会创造大量视频，包括用户直播的内容、短视频、电影、体育比赛、广告等等。视频是一种多功能媒介，可以通过文本、视觉和音

11/15/2023 2:46:00 PM

机器之心

多模态LLM多到看不过来？先看这26个SOTA模型吧

多模态大型语言模型进展如何？盘点 26 个当前最佳多模态大型语言模型。当前 AI 领域的关注重心正从大型语言模型（LLM）向多模态转移，于是乎，让 LLM 具备多模态能力的多模态大型语言模型（MM-LLM）就成了一个备受关注的研究主题。近日，腾讯 AI Lab、京都大学和穆罕默德・本・扎耶德人工智能大学的一个研究团队发布了一份综述报告，全面梳理了 MM-LLM 的近期进展。文中不仅总结了 MM-LLM 的模型架构和训练流程，而且还梳理了 26 个当前最佳的 MM-LLM。如果你正考虑研究或使用 MM-LLM，不妨考

1/31/2024 2:56:00 PM

机器之心

情感分析的终极形态：全景式细粒度多模态对话情感分析基准PanoSent

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]罗盟，本工作的第一作者。新加坡国立大学（NUS）人工智能专业准博士生，本科毕业于武汉大学。主要研究方向为多模态大语言模型和 Social AI、Human-eccentric AI。情感计

8/30/2024 5:25:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发本地部署DeepSeek+DiFy平台构建智能体应用击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

最强开源多模态生成模型MM-Interleaved：首创特征同步器

相关资讯

微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

多模态LLM多到看不过来？先看这26个SOTA模型吧

情感分析的终极形态：全景式细粒度多模态对话情感分析基准PanoSent