300倍体积缩减!​Hugging Face推SmolVLM模型:小巧智能,手机也能跑AI

Hugging Face 推出了一款令人瞩目的 AI 模型 ——SmolVLM。 这款视觉语言模型的体积小到可以在手机等小型设备上运行,且性能超越了那些需要大型数据中心支持的前辈模型。 SmolVLM-256M 模型的 GPU 内存需求不足1GB,性能却超过了其前代 Idefics80B 模型,这一后者的规模是其300倍,标志着实用 AI 部署的一个重大进展。

Hugging Face 推出了一款令人瞩目的 AI 模型 ——SmolVLM。这款视觉语言模型的体积小到可以在手机等小型设备上运行,且性能超越了那些需要大型数据中心支持的前辈模型。

image.png

SmolVLM-256M 模型的 GPU 内存需求不足1GB,性能却超过了其前代 Idefics80B 模型,这一后者的规模是其300倍,标志着实用 AI 部署的一个重大进展。

根据 Hugging Face 机器学习研究工程师安德烈斯・马拉菲奥提的说法,SmolVLM 模型在推向市场的同时,也为企业带来了显著的计算成本降低。“我们之前发布的 Idefics80B 在2023年8月是首个开源的视频语言模型,而 SmolVLM 的推出则实现了300倍的体积缩减,同时性能提升。” 马拉菲奥提在接受《创业者日报》采访时表示。

SmolVLM 模型的推出恰逢企业在人工智能系统实施方面面临高昂计算成本的关键时刻。新模型包括256M 和500M 两种参数规模,可以以以前无法想象的速度处理图像和理解视觉内容。最小版本的处理速度可达每秒16个实例,仅需15GB 的内存,特别适合那些需要处理大量视觉数据的企业。对于每月处理100万张图片的中型公司而言,这意味着可观的年度计算成本节省。

此外,IBM 也与 Hugging Face 达成了合作,将256M 模型集成到其文档处理软件 Docling 中。尽管 IBM 拥有丰富的计算资源,但使用更小的模型使得其以更低的成本高效处理数百万份文件。

Hugging Face 团队通过对视觉处理和语言组件的技术创新,成功减少了模型规模而不损失性能。他们将原先的400M 参数视觉编码器更换为93M 参数版本,并实施了更激进的令牌压缩技术。这些创新使得小型企业和初创公司能够在短时间内推出复杂的计算机视觉产品,基础设施成本也大幅降低。

SmolVLM 的训练数据集包含了1.7亿个训练示例,其中近一半用于文档处理和图像标注。这些发展不仅降低了成本,还为企业带来了全新的应用可能性,使得企业在视觉搜索方面的能力提升至前所未有的水平。

Hugging Face 的这一进展挑战了传统对模型规模与能力之间关系的看法。SmolVLM 证明小型高效架构同样能够实现出色的表现,未来 AI 的发展或许将不再是追求更大的模型,而是追求更灵活高效的系统。

模型:https://huggingface.co/blog/smolervlm

划重点:

🌟 Hugging Face 推出的 SmolVLM 模型能在手机上运行,性能超越300倍大的 Idefics80B 模型。  

💰 SmolVLM 模型帮助企业显著降低计算成本,处理速度达到每秒16个实例。  

🚀 该模型的技术创新让小型企业和初创公司能够在短时间内推出复杂的计算机视觉产品。

相关资讯

Hugging Face 推出小巧AI模型,助力设备性能提升

近期,人工智能开发平台 Hugging Face 团队发布了两款新型 AI 模型,SmolVLM-256M 和 SmolVLM-500M。 他们自信地声称,这两款模型是目前为止体积最小的 AI 模型,能够同时处理图像、短视频和文本数据,尤其适合内存少于1GB 的设备如笔记本电脑。 这一创新让开发者在处理大量数据时,能够以更低的成本实现更高的效率。

IBM发布视觉语言模型Granite-Vision-3.1-2B,轻松解析复杂文档

随着人工智能技术的不断发展,视觉与文本数据的融合成为了一项复杂的挑战。 传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档,这一限制影响了自动内容提取和理解能力,进而影响了数据分析、信息检索和决策等应用。 面对这一需求,IBM 近期发布了 Granite-Vision-3.1-2B,一款专为文档理解设计的小型视觉语言模型。

VLA 技术引领智驾竞赛,英伟达助力黑马企业迅速抢占市场份额

在智能驾驶行业,2025年被视为 “VLA 上车元年”,这标志着一种全新的技术范式正在崭露头角。 VLA,即视觉语言动作模型(Vision-Language-Action Model),最初由 DeepMind 于2023年提出,旨在提升机器人对环境的理解和反应能力。 近年来,这一技术在自动驾驶领域受到了极大的关注。