Hugging Face 发布 SmolVLM 开源 AI 模型:20 亿参数,用于端侧推理,体积小、速度快

Hugging Face 平台昨日(11 月 26 日)发布博文,宣布推出 SmolVLM AI 视觉语言模型(VLM),仅有 20 亿参数,凭借其极低的内存占用在同类模型中脱颖而出。

Hugging Face 平台昨日(11 月 26 日)发布博文,宣布推出 SmolVLM AI 视觉语言模型(VLM),仅有 20 亿参数,用于设备端推理,凭借其极低的内存占用在同类模型中脱颖而出。

官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效,并且完全开源,所有模型检查点、VLM 数据集、训练配方和工具均在 Apache 2.0 许可证下发布。

SmolVLM AI 模型共有 SmolVLM-Base(用于下游微调)、SmolVLM-Synthetic(基于合成数据微调)和 SmolVLM-Instruct(指令微调版本,可以直接用于交互式应用)三个版本。

Hugging Face 发布 SmolVLM 开源 AI 模型:20 亿参数,用于端侧推理,体积小、速度快

架构

SmolVLM 最大的特点在于巧妙的架构设计,借鉴了 Idefics3,使用了 SmolLM2 1.7B 作为语言主干,通过像素混洗策略将视觉信息的压缩率提高到 9 倍。

Hugging Face 发布 SmolVLM 开源 AI 模型:20 亿参数,用于端侧推理,体积小、速度快

训练数据集包括 Cauldron 和 Docmatix,并对 SmolLM2 进行了上下文扩展,使其能够处理更长的文本序列和多张图像。该模型通过优化图像编码和推理过程,有效降低了内存占用,解决了以往大型模型在普通设备上运行缓慢甚至崩溃的问题。

内存

SmolVLM 将 384x384 像素的图像块编码为 81 个 tokens,因此在相同测试图片下,SmolVLM 仅使用 1200 个 tokens,而 Qwen2-VL 则使用 1.6 万个 tokens。

Hugging Face 发布 SmolVLM 开源 AI 模型:20 亿参数,用于端侧推理,体积小、速度快

吞吐量

SmolVLM 在 MMMU、MathVista、MMStar、DocVQA 和 TextVQA 等多个基准测试中表现出色,且处理速度相比较 Qwen2-VL,预填充(prefill)吞吐量快 3.3 到 4.5 倍,生成吞吐量快 7.5 到 16 倍。

Hugging Face 发布 SmolVLM 开源 AI 模型:20 亿参数,用于端侧推理,体积小、速度快

AI在线附上参考地址

  • Hugging Face Releases SmolVLM: A 2B Parameter Vision-Language Model for On-Device Inference

  • SmolVLM - small yet mighty Vision Language Model

相关资讯

世界最大开源 AI 社区 Hugging Face 涉足开源机器人领域,前特斯拉科学家领衔

据外媒 VentureBeat 报道,AI 创企 Hugging Face 设立开源机器人项目,前特斯拉科学家 Remi Cadene 领衔。Remi Cadene 的 X 平台动态显示,这位前特斯拉人形机器人 Optimus 团队成员加入 Hugging Face 并启动了一个开源机器人项目,招募愿在巴黎建造“真正的机器人”的工程师。参考IT之家以往报道,Hugging Face 目前主营业务均为软件形态,包括开源 AI 模型库和 AI 助手 Hugging Chat Assistants。此次组建开源机器人团队

世界最大开源 AI 社区 Hugging Face 将免费提供 1000 万美元共享 GPU,帮助小企业对抗大公司

世界最大的开源 AI 社区 Hugging Face(IT之家注:通称“抱抱脸”)日前宣布,将提供 1000 万美元的免费共享 GPU 帮助开发者创造新的 AI 技术。具体来看,Hugging Face 这次做出此举的目的是帮助小型开发者、研究人员和初创公司对抗大型 AI 公司,避免 AI 进步陷入“集中化”。Hugging Face 首席执行官 Clem Delangue 在接受 The Verge 采访时表示,对能够投资社区感到很幸运,此次之所以能够进行投资,是因为公司“已经盈利,或正走在盈利的路上”。前段时间

亚马逊与 AI 公司 Hugging Face 合作:定制芯片低成本运行 AI 模型

亚马逊公司的云部门宣布,已与人工智能初创公司 Hugging Face 合作,将在亚马逊的定制计算芯片上更低成本地运行数千个 AI 模型。估值 45 亿美元(IT之家备注:当前约 326.25 亿元人民币)的 Hugging Face 已成为 AI 研究人员和开发者分享聊天机器人或其他 AI 软件的中心,并得到了亚马逊、Alphabet 旗下的谷歌和英伟达等公司的支持,它是开发者获取和调整开源 AI 模型(如 Meta Platforms 的 Llama 3)的主要平台。当开发人员调整了开源的 AI 模型后,他们通