颜水成挂帅,昆仑万维2050全球钻研院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态

近日,由颜水成教授带队,昆仑万维2050全球钻研院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大谈话模型。这是一款重磅的通用视觉多模态大模型,支援从视觉懂得到视觉生成、从低层次到高层次的一系列视觉义务,解决了困扰大谈话模型产业已久的图象/视频模型割裂问题,提供了一个全面同一静态图象与动态视频内容的懂得、生成、分割、编辑等义务的像素级通用视觉多模态大模型,为下一代通用视觉大模型的终极形态奠定了基础,也标志着大模型迈向通用人工智能(AGI)的又一大步。Vitron作为一个同一

近日,由颜水成教授带队,昆仑万维2050全球钻研院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大谈话模型。

这是一款重磅的通用视觉多模态大模型,支援从视觉懂得到视觉生成、从低层次到高层次的一系列视觉义务,解决了困扰大谈话模型产业已久的图象/视频模型割裂问题,提供了一个全面同一静态图象与动态视频内容的懂得、生成、分割、编辑等义务的像素级通用视觉多模态大模型,为下一代通用视觉大模型的终极形态奠定了基础,也标志着大模型迈向通用人工智能(AGI)的又一大步。

Vitron作为一个同一的像素级视觉多模态大谈话模型,兑现了从低层次到高层次的视觉义务的全面支援,能够处理复杂的视觉义务,并懂得和生成图象和视频内容,提供了壮大的视觉懂得和义务执行才智。同时,Vitron支援与用户的连续操作,兑现了灵活的人机互动,展示了通向更同一的视觉多模态通用模型的巨大潜力。

Vitron相关的论文、代码和Demo已全部公开,其在综合性、技术创新、人机交互和应用潜力等方面展现出的独特优势和潜力,不仅推动了多模态大模型的发展,还为未来的视觉大模型钻研提供了一个新的方向。

一直以来,昆仑万维2050全球钻研院都致力于打造一家面向未来世界的卓越科学钻研机构,与科学社区共同跨越“奇点”,探索未知世界,创造美好未来。此前,昆仑万维2050全球钻研院已经发布并开源了数字智能体研发工具包AgentStudio,未来,钻研院还将不断推动人工智能技术突破,为中国人工智能生态建设贡献力量。

当前视觉大谈话模型(LLMs)的发展取得了喜人进展。社区越来越相信,构建更通用、更壮大的多模态大模型(MLLMs)将会是通向通用人工智能(AGI)的必经之路。但在向多模态通用大模型(Generalist)的迈进过程中,目前仍存在一些关键挑战。比如很大一部分工作都没有兑现细粒度像素级别的视觉懂得,或者缺乏对图象和视频的同一支援。抑或对于各种视觉义务的支援不充分,离通用大模型相差甚远。

为了填补这个空白,近日,昆仑万维2050全球钻研院、新加坡国立大学、新加坡南洋理工大学团队联合发布开源了Vitron通用像素级视觉多模态大谈话模型。Vitron支援从视觉懂得到视觉生成、从低层次到高层次的一系列视觉义务,包括静态图象和动态视频内容进行全面的懂得、生成、分割和编辑等义务。

颜水成挂帅,昆仑万维2050全球钻研院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态

上图综合描绘了Vitron在四大视觉相关义务的功能支援,以及其关键优势。Vitron还支援与用户的连续操作,兑现灵活的人机互动。该项目展示了面向更同一的视觉多模态通用模型的巨大潜力,为下一代通用视觉大模型的终极形态奠定了基础。

Vitron相关论文、代码、Demo目前已全部公开。

论文标题:Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing项目主页&Demo:https://vitron-llm.github.io/论文链接:https://is.gd/aGu0VV开源代码:https://github.com/SkyworkAI/Vitron

颜水成挂帅,昆仑万维2050全球钻研院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态

01大一统的终极多模态大谈话模型

近年来,大谈话模型(LLMs)展现出了前所未有的壮大才智,其被逐渐验证为乃是通向AGI的技术路线。而多模态大谈话模型(MLLMs)在多个社区火爆发展且迅速出圈,通过引入能进行视觉感知的模块,扩展纯谈话基础LLMs至MLLMs,众多在图象懂得方面壮大卓越的MLLMs被研发问世,例如BLIP-2、LLaVA、MiniGPT-4等等。与此同时,专注于视频懂得的MLLMs也陆续面世,如VideoChat、Video-LLaMA和Video-LLaVA等等。

随后,钻研职员主要从两个维度试图进一步扩展MLLMs的才智。一方面,钻研职员尝试深化MLLMs对视觉的懂得,从粗略的实例级懂得过渡到对图象的像素级细粒度懂得,从而兑现视觉区域定位(Regional Grounding)才智,如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2等。另一方面,钻研职员尝试扩展MLLMs可以支援的视觉功能。部分钻研已经开始钻研让MLLMs不仅懂得输入视觉信号,还能支援生成输入视觉内容。比如,GILL、Emu等MLLMs能够灵活生成图象内容,以及GPT4Video和NExT-GPT兑现视频生成。

目前人工智能社区已逐渐达成一致,认为视觉MLLMs的未来趋势必然会朝着高度同一、才智更强的方向发展。然而,尽管社区开发了众多的MLLMs,但仍然存在明显的鸿沟。

首先,几乎所有现有的视觉LLMs将图象和视频视为不同的实体,要么仅支援图象,要么仅支援视频。钻研职员主张,视觉应该同时包含了静态图象和动态视频两个方面的内涵——这两者都是视觉世界的核心组成,在大多数场景中甚至可以互换。所以,需要构建一个同一的MLLM框架能够同时支援图象和视频模态。其次,目前MLLMs对视觉功能的支援还有所不足。大多数模型仅能进行懂得,或者最多生成图象或视频。钻研职员认为,未来的MLLMs应该是一个通用大谈话模型,能覆盖更广泛的视觉义务和操作范围,兑现对所有视觉相关义务的同一支援,达到“one for all”的才智。这点对实际应用尤其是在经常涉及一系列迭代和交互操作的视觉创作中至关重要。例如,用户通常首先从文本开始,通过文生图,将一个想法转化为视觉内容;然后通过进一步的细粒度图象编辑来完善初始想法,添加更多细节;接着,通过图象生成视频来创建动态内容;最后,进行几轮迭代交互,如视频编辑,完善创作。

颜水成挂帅,昆仑万维2050全球钻研院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态

上表简单地归纳了现有的视觉MLLM的才智(只代表性地囊括了部分模型,覆盖不完整)。为了弥补这些差距,该团队提出一种通用的像素级视觉MLLM——Vitron。

02. Vitron体系架构:三大关键模块

Vitron整体框架如下图所示。Vitron采用了与现有相关MLLMs相似的架构,包括三个关键部分:1) 前端视觉&谈话编码模块,2) 中心LLM懂得和文本生成模块,以及3) 后端用户响应和模块挪用以进行视觉操控模块。

颜水成挂帅,昆仑万维2050全球钻研院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态

前端模块:视觉-谈话编码。为了感知图象和视频模态信号,并支援细粒度用户视觉输入,Vitron集成了图象编码器、视频编码器、区域框/草图编码器。中心模块:核心LLM。Vitron使用的是Vicuna(7B,1.5),来兑现懂得、推理、决策制定和多轮用户交互。后端模块:用户响应与模块挪用。Vitron采用以文本为中心的挪用策略,整合现成的几个壮大先进(SoTA)的图象和视频处理模块,用于解码和执行从低层到高层的一系列视觉终端义务。通过采用以文本为中心的模块集成挪用方法,Vitron不仅兑现了体系同一,还确保了对齐效率和体系可扩展性。

颜水成挂帅,昆仑万维2050全球钻研院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态

03. Vitron模型训练三大阶段

基于上述架构,再对Vitron进行训练微调,以赋予其壮大的视觉懂得和义务执行才智。模型训练主要囊括三个不同的阶段。

步骤一:视觉-谈话整体对齐学习。将输入的视觉谈话特征映射到一个同一的特征空间中,从而使其能够有效懂得输入的多模态信号。这是一种粗粒度的视觉-谈话对齐学习,可以让体系具备整体上有效处理传入的视觉信号。钻研职员采用了现存的图象-标题对(CC3M)、视频-标题对(Webvid)和区域-标题对(RefCOCO)的数据集进行训练。步骤二:细粒度的时空视觉定位指令微调。体系采用了挪用外部模块方式来执行各种像素级视觉义务,但LLM本身并未经过任何细粒度的视觉训练,这将会阻碍了体系兑现真正的像素级视觉懂得。为此,钻研职员提出了一种细粒度的时空视觉定位指令微调训练,核心思想是使LLM能够定位图象的细粒度空间性和视频的具体时序特性。步骤三:输入端面向命令挪用的指令微调。上述第二阶段的训练赋予了LLM和前端编码器在像素级别懂得视觉的才智。这最后一步,面向命令挪用的指令微调,旨在让体系具备精确执行命令的才智,允许LLM生成适当且正确的挪用文本。由于不同的终端视觉义务可能需要不同的挪用命令,为了同一这一点,钻研职员提出将LLM的响应输入标准化为结构化文本格式,其中包括:

1)用户响应输入,直接回复用户的输入。

2)模块名称,指示将要执行的功能或义务。

3)挪用命令,触发义务模块的元指令。

4)区域(可选输入),指定某些义务所需的细粒度视觉特征,例如在视频跟踪或视觉编辑中,后端模块需要这些信息。对于区域,基于LLM的像素级懂得,将输入由坐标描述的边界框。

颜水成挂帅,昆仑万维2050全球钻研院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态

04评估实验

钻研职员基于Vitron在22个常见的基准数据集、12个图象/视频视觉义务上进行了广泛的实验评估。Vitron展现出在四大主要视觉义务群组(分割、懂得、内容生成和编辑)中的壮大才智,与此同时其具备灵活的人机交互才智。以下代表性地展示了一些定性比较结果:

Vision Segmentation

颜水成挂帅,昆仑万维2050全球钻研院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态

Results of image referring image segmentation

Fine-grained Vision Understanding

颜水成挂帅,昆仑万维2050全球钻研院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态

Results of image referring expression comprehension.

颜水成挂帅,昆仑万维2050全球钻研院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态

Results on video QA.

Vision Generation

颜水成挂帅,昆仑万维2050全球钻研院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态

Vision Editing

颜水成挂帅,昆仑万维2050全球钻研院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态

Image editing results

具体更多详细实验内容和细节请移步论文。

05未来方向展望

总体上,这项工作展示了研发大一统的视觉多模态通用大模型的巨大潜力,为下一代视觉大模型的钻研奠定了一个新的形态,迈出了这个方向的第一步。尽管团队所提出的Vitron体系表现出壮大的通用才智,但依然存在自身的局限性。以下钻研职员列出一些未来可进一步探索的方向。

体系架构

Vitron体系仍采用半联合、半代理的方式来挪用外部工具。虽然这种基于挪用的方法便于扩展和替换潜在模块,但这也意味着这种流水线结构的后端模块不参与到前端与LLM核心模块的联合学习。这一限制不利于体系的整体学习,这意味着不同视觉义务的性能上限将受到后端模块的限制。未来的工作应将各种视觉义务模块整合成一个同一的单元。兑现对图象和视频的同一懂得和输入,同时通过单一生成范式支援生成和编辑才智,仍然是一个挑战。目前一种有希望的方式是结合modality-persistent的tokenization, 提升体系在不同输入和输入以及各种义务上的同一化。

用户交互性

与之前专注于单一视觉义务的模型(例如,Stable Diffusion和SEEM)不同,Vitron旨在促进LLM和用户之间的深度交互,类似于行业内的OpenAI的DALL-E系列,Midjourney等。兑现最佳的用户交互性是本项工作的核心目标之一。Vitron利用现有的基于谈话的LLM,结合适当的指令调整,以兑现一定程度的交互。例如,体系可以灵活地响应用户输入的任何预期消息,产生相应的视觉操作结果,而不要求用户输入精确匹配后端模块条件。然而,该工作在增强交互性方面仍有很大的提升空间。例如,从闭源的Midjourney体系汲取灵感,不论LLM在每一步做出何种决定,体系都应积极向用户提供反馈,以确保其行动和决策与用户意图一致。

模态才智

当前,Vitron集成了一个7B的Vicuna模型,其可能对其懂得谈话、图象和视频的才智会产生某些限制。未来的探索方向可以发展一个全面的端到端体系,比如扩大模型的规模,以兑现对视觉的更彻底和全面的懂得。此外,应该努力使LLM能够完全同一图象和视频模态的懂得。

给TA打赏
共{{data.count}}人
人已打赏
应用

为什么要做长文本、长图文、长语音的大模型?深度解读讯飞星火V3.5春季上新

2024-4-26 14:47:00

应用

辉瑞 AI 法子登 Science,揭示数以万计的配体-蛋白质相互作用

2024-4-26 15:39:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索