最强开源多模态生成模型MM-Interleaved:首创特点同步器

过去几个月中,随着 GPT-4V、DALL-E 3、Gemini 等重磅工作的相继推出,「AGI 的下一步」—— 多模态生成大模型迅速成为全球学者瞩目的焦点。想象一下,AI 不仅会聊天,还长了「眼睛」,能看懂图片,甚至还会通过画画来表达自己!这意味着,你可以和它们谈天说地,分享图片或视频,它们也同样能用图文并茂的方式回应你。最近,上海人工智能实验室联合香港中文大学多媒体实验室(MMLab)、清华大学、商汤科技、多伦多大学等多家高校、机构,共同发布了一个多才多艺的最强开源多模态生成模型 MM-Interleaved,

过去几个月中,随着 GPT-4V、DALL-E 3、Gemini 等重磅工作的相继推出,「AGI 的下一步」—— 多模态生成大模型迅速成为全球学者瞩目的焦点。

想象一下,AI 不仅会聊天,还长了「眼睛」,能看懂图片,甚至还会通过画画来表达自己!这意味着,你可以和它们谈天说地,分享图片或视频,它们也同样能用图文并茂的方式回应你。

最近,上海人工智能实验室联合香港中文大学多媒体实验室(MMLab)、清华大学、商汤科技、多伦多大学等多家高校、机构,共同发布了一个多才多艺的最强开源多模态生成模型 MM-Interleaved,借助崭新提出的多模态特点同步器刷新多项恣意 SOTA。它拥有对高分辨率图象细节和微妙语义的精准了解能力,支持任意穿插的图文输入和输出,带来了多模态生成大模型的崭新突破。

最强开源多模态生成模型MM-Interleaved:首创特点同步器

论文地址:https://arxiv.org/pdf/2401.10208.pdf

项目地址:https://github.com/OpenGVLab/MM-Interleaved

模型地址:https://huggingface.co/OpenGVLab/MM-Interleaved/tree/main/mm_interleaved_pretrain

MM-Interleaved 可以紧张编写引人入胜的旅游日志和童话故事,准确了解机器人操作,就连分析电脑和手机的 GUI 界面、创作独特格调的精美图片都不在话下。甚至,它还能教你做菜,陪你玩游戏,成为随时听候指挥的个人助理!话不多说,直接看效果:

紧张了解复杂多模态上下文

MM-Interleaved 可以根据图文上下文自主推理生成符合要求的文本答复,它既能算水果数学题:

最强开源多模态生成模型MM-Interleaved:首创特点同步器

也能结合常识推理出 Logo 图象对应的公司并进行介绍:

最强开源多模态生成模型MM-Interleaved:首创特点同步器

还能精确识别用红色圆圈标注出的手写文字内容:

最强开源多模态生成模型MM-Interleaved:首创特点同步器

此外,模型也能直接了解通过序列图象表示的机器人动作:

最强开源多模态生成模型MM-Interleaved:首创特点同步器

以及在 Minecraft 中如何建造围栏这样的游戏操作:

最强开源多模态生成模型MM-Interleaved:首创特点同步器

甚至能结合上下文,手把手地教用户如何在手机 UI 界面上配置灰度:

最强开源多模态生成模型MM-Interleaved:首创特点同步器

以及精准定位找到那架藏在后面的小飞机:

最强开源多模态生成模型MM-Interleaved:首创特点同步器

脑洞全开生成不同格调图象

MM-Interleaved 模型同样可以出色地完成各种复杂的图象生成恣意。比如根据用户供给的详细描述生成一张三角钢琴的剪影:

最强开源多模态生成模型MM-Interleaved:首创特点同步器

或者当用户以多种形式指定所需生成的图象应当包含的物体或格调时,MM-Interleaved 框架也可紧张应对。

比如生成一张水彩格调的大象:

最强开源多模态生成模型MM-Interleaved:首创特点同步器

按照狗的格调生成一张猫的画:

最强开源多模态生成模型MM-Interleaved:首创特点同步器

在向日葵花丛里的一座木房子:

最强开源多模态生成模型MM-Interleaved:首创特点同步器

以及在生成海浪图象时,根据上下文智能推断相应的格调。

图象生成兼顾空间一致性

更令人惊喜的是,MM-Interleaved 还具备根据输入的肢解图和对应的文本描述生成图象的能力,并确保生成的图象与肢解图在空间布局上保持一致。

最强开源多模态生成模型MM-Interleaved:首创特点同步器

这一功能不仅展示了模型在图文生成恣意中的普通表现,同时也为用户供给了更加灵活和直观的操作体验。

自主生成图文并茂的文章

此外,只需供给一个简单的开头,MM-Interleaved 就能自主进行续写,生成语义连贯、图文并茂的文章,题材多样。

无论是关于一朵玫瑰的童话故事:

最强开源多模态生成模型MM-Interleaved:首创特点同步器

教你制作苹果汁的教程指南:

最强开源多模态生成模型MM-Interleaved:首创特点同步器

还是卡通动漫中的情节片段:

最强开源多模态生成模型MM-Interleaved:首创特点同步器

MM-Interleaved 框架都展现出了普通的创造力。这使得 MM-Interleaved 框架成为了一个无限创意的智能合作者,能够帮助用户紧张打造引人入胜的图文作品。

MM-Interleaved 致力于解决图文交织多模态大模型训练中的核心问题,通过深入研究提出了一种崭新的端到端预训练框架。

基于 MM-Interleaved 训练的模型,在参数量更少、不使用私有数据的情况下,不仅在多个零样本多模态了解恣意上表现优越,领先于国内外最新研究工作,如 Flamingo、Emu2 等。

还能进一步通过监督微调的方式,在视觉问答(VQA),图象描述(image caption)、指代了解(referring expression comprehension)、图生图(segment-to-image generation)、视觉故事生成(visual storytelling)等多个下游恣意上取得更为优异的综合机能。

目前模型的预训练权重及相应代码兑现均已在 GitHub 开源。

最强开源多模态生成模型MM-Interleaved:首创特点同步器

多模态特点同步器携手崭新端到端训练框架

最强开源多模态生成模型MM-Interleaved:首创特点同步器

MM-Interleaved 提出了一种崭新的端到端训练框架,专门面向图文交织数据。

该框架支持多尺度的图象特点作为输入,不对图象和文本的中间特点添加任何额外约束,而是直接采用预测下一个文本 token 或下一张图象的自监督训练目标,兑现单阶段的统一预训练范式。

与以往方法相比,MM-Interleaved 不仅支持交织生成文本和图象,还能高效捕捉图象中更多的细节信息。

最强开源多模态生成模型MM-Interleaved:首创特点同步器

此外,MM-Interleaved 的关键兑现还包括一个通用的多模态特点同步器(Multi-modal Feature Synchronizer)。

该同步器能够动态注入多张高分辨率图象的细粒度特点到多模态大模型和图象解码器中,兑现了对文本和图象的解码生成的同时进行跨模态的特点同步。

这一创新设计使得 MM-Interleaved 为多模态大模型领域的发展注入了新的活力。

多项恣意机能领先

最强开源多模态生成模型MM-Interleaved:首创特点同步器

最强开源多模态生成模型MM-Interleaved:首创特点同步器

如表 1 和表 3 所示,MM-Interleaved 在零样本多模态了解和生成恣意上均取得了普通的机能。这一成就不仅证明了该框架的强大能力,也突显了其在应对多样化恣意时的强大通用性。

最强开源多模态生成模型MM-Interleaved:首创特点同步器

最强开源多模态生成模型MM-Interleaved:首创特点同步器

表 2 和表 4 展现了 MM-Interleaved 在进行进一步微调后的实验结果,其在指代了解、基于肢解图生成图象、图文交织生成等多个下游恣意上的机能也十分优异。

这表明 MM-Interleaved 不仅在预训练阶段表现出色,而且在具体恣意微调后依然能够保持领先地位,从而为多模态大模型的广泛应用供给了可靠的支持。

结论

MM-Interleaved 的问世标志着多模态大模型的发展朝着兑现全面端到端的统一建模和训练迈出了关键一步。

这一框架的成功不但体现在其预训练阶段所展现的普通机能,而且还体现在微调后在各个具体下游恣意上的全面表现。

其独特的贡献不仅在于展示了强大的多模态处理能力,更为开源社区构建新一代多模态大模型开启了更为广阔的可能性。

MM-Interleaved 也为未来图文交织数据的处理供给了新的思路和工具,为兑现更加智能、灵活的图文生成和了解奠定了坚实基础。

我们期待看到这一创新为更多领域相关应用带来更多惊喜。

给TA打赏
共{{data.count}}人
人已打赏
应用

学会AI绘画如何变现?我找到方法了!

2024-2-1 1:23:00

应用

无注意力大模型Eagle7B:基于RWKV,推理本钱降低10-100 倍

2024-2-1 14:37:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索