视觉价值 - AI在线

九大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

在现代多模态视觉语言模型（VLM）的发展中，提高图像描述的准确性和细节丰富性始终是一个挑战。尽管基于大规模数据的训练极大推动了模型性能，但在实际应用中，模型仍面临识别细微图像区域和减少「幻觉」现象的问题。推理时搜索（inference time search）作为一种提升响应质量的有效方法，已在大型语言模型中展现出巨大潜力。