视觉-语言模型(VLM)

IBM与Hugging Face联手放大招！开源“文档解密神器”SmolDocling，复杂文档一键变结构化数据！

话说在计算机科学领域，将那些结构复杂的文档变成规整的数据，一直是个让人头疼的“老大难”问题。以前的“土办法”，要么是各种模型“组团出道”，搞出一套复杂的流程，要么就得祭出“巨无霸”级别的多模态模型，虽然看起来很厉害，但动不动就“幻觉”，还特别“烧钱”。不过最近由IBM和Hugging Face联手推出的SmolDocling，只有256M参数的开源视觉-语言模型（VLM），目标非常明确，就是要端到端地解决多模态文档转换的任务。