开源的轻量化VLM-SmolVLM模型架构、数据策略及其衍生物PDF解析模型SmolDocling

2025-04-30 03:20

缩小视觉编码器的尺寸，能够有效的降低多模态大模型的参数量。再来看一个整体的工作，从视觉侧和语言模型侧综合考量模型参数量的平衡模式，进一步降低参数量，甚至最小达256M参数量，推理时显存占用1GB。下面来看看，仅供参考。

缩小视觉编码器的尺寸，能够有效的降低多模态大模型的参数量。再来看一个整体的工作，从视觉侧和语言模型侧综合考量模型参数量的平衡模式，进一步降低参数量，甚至最小达256M参数量，推理时显存占用<1GB。下面来看看，仅供参考。

模型架构

SmolVLM 架构。图像被分割成子图像，从视频中采样帧，然后编码成视觉特征。这些特征首先通过像素重排，然后通过MLP投影映射到LLM输入空间作为视觉标记。然后，视觉标记与文本嵌入（橙色/红色）连接/交错。这个组合序列被传递给LLM进行文本输出。

那么，如何设计一个高效的小型多模态模型架构？

Q1：如何在视觉和语言模型之间分配计算？

传统大型VLMs（如Flamingo）将90%以上参数分配给语言模型（LM），但SmolVLM发现：小规模LM需重新平衡视觉与语言的计算资源。

研究方法：将三种不同规模的SmolLM2变体（135M、360M和1.7B参数）与两种SigLIP编码器（一个紧凑的93M SigLIP-B/16和一个较大的428M SigLIP-SO400M）进行配对。

发现：通常情况下，较大的VLM会不均衡地将参数分配给语言模型，但在小型模型中，这种分配方式不再适用。当使用大型编码器与最小的LM（135M）时，性能显著下降，表明这种配置效率低下。在中等规模的LM（360M）中，较大的编码器可以提高性能，但会增加66%的参数。只有在最大的LM（1.7B）中，较大的编码器仅增加10%的参数。

结论：紧凑的多模态模型受益于平衡的编码器-LM参数分配，使得较小的视觉编码器在效率上更具优势。即：模型越小，视觉编码器应更轻量，避免“头重脚轻”。当使用具有最小LM（135M）的大编码器时，性能显著下降，突显了编码器-LM平衡效率低下。在中等LM规模（360M）时，较大的编码器将性能提高了11.6%，但这也伴随着参数增加了66%，使得紧凑型编码器更可取。只有在最大的LM规模（1.7B）时，较大的编码器仅代表参数增加了10%。

图片

Q2：如何有效地将图像传递给语言模型？

如何支持长上下文与对视觉token进行压缩？为了提高模型的上下文处理能力，采用了自注意力架构，其中视觉Token与文本token连接，并由语言模型共同处理。这种方法需要比SmolLM2的2ktoken限制更多的上下文。

研究方法：通过增加RoPE基数从10k到273k来扩展上下文容量，并在长上下文数据（如Dolma书籍和The Stack）和短上下文数据（如FineWeb-Edu、DCLM和SmolLM2的数学数据）上进行微调。

发现：扩展上下文窗口对紧凑VLM有显著的好处。对于1.7B的LM，微调在16ktoken时表现稳定，但对于较小的模型（135M和360M），在超过8k token时表现不佳。因此，研究者们为SmolVLM采用了16k token的上下文，并为较小的变体设定了8k token的限制。

图片

像素重排：重新排列编码图像，以增加通道深度为代价换取空间分辨率。这减少了视觉标记数量，同时保持信息密度。

图片

原理：将2×2空间区域重组为通道维度（上图），token数减少4倍（r=2时）。

较小的VLMs从更激进的压缩（r = 4）中受益，因为减少的token数减轻了注意力开销并改善了长上下文建模

对比基线：InternVL等使用r=2，但SmolVLM证明小模型需更激进压缩。

结论：小型VLM显著受益于扩展的上下文长度。

Q3：如何有效地编码图像和视频？

在多模态建模中，平衡图像和视频之间的token分配至关重要。图像通常需要更高的分辨率和更多的token来保持质量，而视频则需要更少的token来高效处理长序列。

研究方法：采用了一种图像分割策略，灵感来自UReader和SPHINX，将高分辨率图像分割成多个子图像，并保留原始图像的缩小版本。这种方法在不增加过多计算开销的情况下保持了图像质量。

视频处理：对于视频，发现帧平均策略会负面影响性能（下图）。因此，选择不采用帧平均策略，而是将视频帧重新缩放到图像编码器的分辨率。

图片

结论：对于小型模型，图像分割增强了视觉任务的表现，而视频帧平均则不适用。

数据策略

数据配比：最终训练集含14%文本、33%视频、53%图像

视觉（左侧）和视频（右侧）的训练数据集详情，按模态和子类别细分

性能

图片

衍生模型-端到端的PDF解析多模态模型SmolDocling

模型结构：就是SmolVLM

图片

训练数据（该模型核心）：训练数据构造上，引入了一种新的文档标记格式DocTags，用于标准化文档转换，这个是核心意义。DocTags定义了一个明确的标签和规则集，以分离文本内容和文档结构，从而提高图像到序列模型的性能，如下图：

图片

对应的语法

图片

从上面类XML标签语法看来，感觉设计的非常冗余。整体上结合模型架构也没什么特殊的创新点，并且，之前被自媒体吹得性能很强，实际上，该模型还是demo玩具。个人使用后观点。

参考文献：SmolVLM: Redefining small and efficient multimodal models，https://arxiv.org/pdf/2504.05299

开源地址：https://github.com/huggingface/smollm

视觉语言模型导论：这篇论文能成为你进军VLM的第一步

近些年，语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型（LLM）有能力解决多种不同的任务，它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入，但现在也正在具备处理视觉输入的能力。如果能将视觉与语言打通，那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型语言模型扩展到了视觉领域，但视觉与语言之间的连接尚未被彻底打通。举些例子，大多数模型都难以理解空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视

6/11/2024 2:45:00 PM

机器之心

Groundlight 开源框架，搞定复杂的视觉推理

一直专注于让AI看懂世界的 Groundlight 研究团队，近日放大招，宣布开源了一套全新的 AI 框架!这套框架旨在攻克视觉领域的一大难题——复杂的视觉推理，让AI不仅能“看图识物”，更能像福尔摩斯一样，从图像中推理出更深层次的信息。我们都知道，现在的AI在识别猫猫狗狗方面已经炉火纯青，但要让它们理解图片背后的逻辑关系，进行更复杂的推理，就常常“卡壳”。 Groundlight 的研究人员指出，当前的视觉语言模型（VLM）在理解图像本身尚且不足的情况下，更难以完成需要深度解读的任务。

3/17/2025 3:00:00 PM

AI在线

用GPT-4V和人类演示训练机器人：眼睛学会了，手也能跟上

微软提出使用人手运动视频直接教机器人完成任务的新方法，这种方法使用 GPT-4V 分解视频中的动作，结合大语言模型生成对应的行为表述并作为任务列表，训练机器人只需要动动手就能完成。如何将语言 / 视觉输入转换为机器人动作？训练自定义模型的方法已经过时，基于最近大语言模型（LLM）和视觉语言模型（VLM）的技术进展，通过 prompt 工程使用 ChatGPT 或 GPT-4 等通用模型才是时下热门的方法。这种方法绕过了海量数据的收集和对模型的训练过程，展示出了强大的灵活性，而且对不同机器人硬件更具适应性，并增强了系

12/4/2023 11:05:00 AM

机器之心

资讯热榜

纳米AI发布MCP万能工具箱，简化AI工具集成与调用即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求 AI视频资讯早读！7个产品更新+8个案例精选 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Ollama 支持全线的 Qwen 3 模型 Qwen3正式发布，优化编码与代理能力，强化MCP支持引领AI新潮流 DeepWiki：AI驱动的GitHub代码库百科全书正式亮相

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta 图像 AI创作技术论文 Stable Diffusion Gemini 马斯克算法蛋白质芯片生成式代码英伟达腾讯神经网络研究计算 Anthropic Sora 3D AI for Science AI设计机器学习 GPU 开发者 AI视频场景华为预测人形机器人百度苹果伟达 Transformer 深度学习 xAI 模态字节跳动 Claude 大语言模型搜索具身智能驾驶神器推荐文本 Copilot LLaMA 算力安全视觉视频生成干货合集应用训练大型语言模型科技亚马逊特斯拉 2024 AGI

顶部

开源的轻量化VLM-SmolVLM模型架构、数据策略及其衍生物PDF解析模型SmolDocling

模型架构

Q1： 如何在视觉和语言模型之间分配计算？

Q2： 如何有效地将图像传递给语言模型？

Q3： 如何有效地编码图像和视频？

数据策略

性能

衍生模型-端到端的PDF解析多模态模型SmolDocling

相关资讯

视觉语言模型导论：这篇论文能成为你进军VLM的第一步

Groundlight 开源框架，搞定复杂的视觉推理

用GPT-4V和人类演示训练机器人：眼睛学会了，手也能跟上

Q1：如何在视觉和语言模型之间分配计算？

Q2：如何有效地将图像传递给语言模型？

Q3：如何有效地编码图像和视频？