VisVM

九大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠

在现代多模态视觉语言模型(VLM)的发展中,提高图像描述的准确性和细节丰富性始终是一个挑战。 尽管基于大规模数据的训练极大推动了模型性能,但在实际应用中,模型仍面临识别细微图像区域和减少「幻觉」现象的问题。 推理时搜索(inference time search)作为一种提升响应质量的有效方法,已在大型语言模型中展现出巨大潜力。
  • 1