VisVM

九大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

九大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

在现代多模态视觉语言模型（VLM）的发展中，提高图像描述的准确性和细节丰富性始终是一个挑战。尽管基于大规模数据的训练极大推动了模型性能，但在实际应用中，模型仍面临识别细微图像区域和减少「幻觉」现象的问题。推理时搜索（inference time search）作为一种提升响应质量的有效方法，已在大型语言模型中展现出巨大潜力。

1

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动 SK 海力士宣布参展 CES 2025，将展示 122TB 企业级固态硬盘等产品阿里云与黑芝麻智能完成大模型车载芯片级适配突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架清华大学推 AutoDroid-V2：AI 离线在线协同，优化移动端自动化 GUI 控制啥玩意值8499元？马斯克在线打call，国产AI威震天秒售罄斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手 AI模拟细胞，走向全新虚拟生命，斯坦福团队呼吁是时候走出全新的一步了

标签云