Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

2025-01-26 08:15

Hugging Face 上周发布了两款全新多模态模型 SmolVLM-256M 和 SmolVLM-500M，其中 SmolVLM-256M 号称是世界上最小的视觉语言模型（Video Language Model）。

Hugging Face 发布了两款全新多模态模型 SmolVLM-256M 和 SmolVLM-500M，其中 SmolVLM-256M 号称是世界上最小的视觉语言模型（Video Language Model）。

据悉，相应模型主要基于 Hugging Face 团队去年训练的 80B 参数模型蒸馏而成，号称在性能和资源需求之间实现了平衡，官方称 SmolVLM-256M / 500M 两款模型均可“开箱即用”，可以直接部署在 transformer MLX 和 ONNX 平台上。

Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

具体技术层面，SmolVLM-256M / 500M 两款模型均采用 SigLIP 作为图片编码器，使用 SmolLM2 作为文本编码器。其中 SmolVLM-256M 是目前最小的多模态模型，可以接受任意序列的图片和文本输入并生成文字输出，该模型功能包括描述图片内容、为短视频生成字幕、处理 PDF 等。Hugging Face 称由于该模型整体轻巧，可在移动平台轻松运行，仅需不到 1GB 的 GPU 显存便可在单张图片上完成推理。

而 SmolVLM-500M 针对需要更高性能的场景而设计，Hugging Face 称相关模型非常适合部署在企业运营环境中，该模型推理单张图片仅需 1.23GB 的 GPU 显存，相对 SmolVLM-256M 虽然负载更大，但推理输出的内容更精准。

Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

AI在线注意到，两款模型均采用 Apache 2.0 开源授权，研究团队提供了基于 transformer 和 WebGUI 的示例程序。所有模型及其演示已公开便于开发者下载和使用，具体页面可（点此访问）。

亚马逊与 AI 公司 Hugging Face 合作：定制芯片低成本运行 AI 模型

亚马逊公司的云部门宣布，已与人工智能初创公司 Hugging Face 合作，将在亚马逊的定制计算芯片上更低成本地运行数千个 AI 模型。估值 45 亿美元（IT之家备注：当前约 326.25 亿元人民币）的 Hugging Face 已成为 AI 研究人员和开发者分享聊天机器人或其他 AI 软件的中心，并得到了亚马逊、Alphabet 旗下的谷歌和英伟达等公司的支持，它是开发者获取和调整开源 AI 模型（如 Meta Platforms 的 Llama 3）的主要平台。当开发人员调整了开源的 AI 模型后，他们通

5/23/2024 10:38:06 AM

沛霖（实习）

AI 产业繁荣缩影：Hugging Face 平台托管模型数量破 100 万

AI 托管平台 Hugging Face 于本周四宣布，该平台收录的 AI 模型数量突破 100 万个，是 AI 领域快速发展的一个重要缩影。AI在线注：Hugging Face 成立于 2016 年，是一个旨在推动自然语言处理（NLP）技术和工具发展的开源社区和公司。团队致力于提供各种 NLP 任务中的最新技术、模型和工具，以及为开发者提供便捷的方式来使用、微调和部署这些技术。Hugging Face 首席执行官克莱门特・德朗格（Clément Delangue）在 X 上发表的一篇文章中写道，其公司托管了许多备

9/27/2024 2:18:27 PM

故渊