Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

Hugging Face 上周发布了两款全新多模态模型 SmolVLM-256M 和 SmolVLM-500M,其中 SmolVLM-256M 号称是世界上最小的视觉语言模型(Video Language Model)。

Hugging Face 发布了两款全新多模态模型 SmolVLM-256M 和 SmolVLM-500M,其中 SmolVLM-256M 号称是世界上最小的视觉语言模型(Video Language Model)

Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

据悉,相应模型主要基于 Hugging Face 团队去年训练的 80B 参数模型蒸馏而成,号称在性能和资源需求之间实现了平衡,官方称 SmolVLM-256M / 500M 两款模型均可“开箱即用”,可以直接部署在 transformer MLX 和 ONNX 平台上。

Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

具体技术层面,SmolVLM-256M / 500M 两款模型均采用 SigLIP 作为图片编码器,使用 SmolLM2 作为文本编码器。其中 SmolVLM-256M 是目前最小的多模态模型,可以接受任意序列的图片和文本输入并生成文字输出,该模型功能包括描述图片内容、为短视频生成字幕、处理 PDF 等。Hugging Face 称由于该模型整体轻巧,可在移动平台轻松运行,仅需不到 1GB 的 GPU 显存便可在单张图片上完成推理

而 SmolVLM-500M 针对需要更高性能的场景而设计,Hugging Face 称相关模型非常适合部署在企业运营环境中,该模型推理单张图片仅需 1.23GB 的 GPU 显存,相对 SmolVLM-256M 虽然负载更大,但推理输出的内容更精准。

Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

AI在线注意到,两款模型均采用 Apache 2.0 开源授权,研究团队提供了基于 transformer 和 WebGUI 的示例程序。所有模型及其演示已公开便于开发者下载和使用,具体页面可(点此访问)。

相关资讯

亚马逊与 AI 公司 Hugging Face 合作:定制芯片低成本运行 AI 模型

亚马逊公司的云部门宣布,已与人工智能初创公司 Hugging Face 合作,将在亚马逊的定制计算芯片上更低成本地运行数千个 AI 模型。估值 45 亿美元(IT之家备注:当前约 326.25 亿元人民币)的 Hugging Face 已成为 AI 研究人员和开发者分享聊天机器人或其他 AI 软件的中心,并得到了亚马逊、Alphabet 旗下的谷歌和英伟达等公司的支持,它是开发者获取和调整开源 AI 模型(如 Meta Platforms 的 Llama 3)的主要平台。当开发人员调整了开源的 AI 模型后,他们通

AI 产业繁荣缩影:Hugging Face 平台托管模型数量破 100 万

AI 托管平台 Hugging Face 于本周四宣布,该平台收录的 AI 模型数量突破 100 万个,是 AI 领域快速发展的一个重要缩影。AI在线注:Hugging Face 成立于 2016 年,是一个旨在推动自然语言处理(NLP)技术和工具发展的开源社区和公司。团队致力于提供各种 NLP 任务中的最新技术、模型和工具,以及为开发者提供便捷的方式来使用、微调和部署这些技术。Hugging Face 首席执行官克莱门特・德朗格(Clément Delangue)在 X 上发表的一篇文章中写道,其公司托管了许多备

Hugging Face 研究“AI 降本增效”:给予更长运算时间让低成本小模型输出比拟大模型准确结果

目前业界模型性能通常与训练期间投入的资源绑定,除了头部厂商大肆投入资源训练模型外,许多小型企业和个人开发者实际上并不具备足够的资源,为了解决这一问题,许多团队试图寻找降本增效替代方案。