视觉-语言模型(VLM)

IBM与Hugging Face联手放大招!开源“文档解密神器”SmolDocling,复杂文档一键变结构化数据!

话说在计算机科学领域,将那些结构复杂的文档变成规整的数据,一直是个让人头疼的“老大难”问题。 以前的“土办法”,要么是各种模型“组团出道”,搞出一套复杂的流程,要么就得祭出“巨无霸”级别的多模态模型,虽然看起来很厉害,但动不动就“幻觉”,还特别“烧钱”。 不过最近由IBM和Hugging Face联手推出的SmolDocling,只有256M参数的开源视觉-语言模型(VLM),目标非常明确,就是要端到端地解决多模态文档转换的任务。
  • 1