LLaVA-UHD - AI在线

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力，成为如今最领先的多模态大模型。然而，近期很多工作发现 GPT-4V 在很多基本能力上却意外的出现短板。例如，在微软一篇长达 166 页的技术报告《The Dawn of LMMs:Preliminary Explorations with GPT-4V (ision)》中，作者发现，对于一个不太复杂的图像中的苹果数量，GPT-4V 竟然怎么数也数不对。然而，学术界和工业界尚不清楚导致这些问题的底