AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图象等多模态内容处理方面表现出了空前的才能,成为技术新浪潮。
然而,对于这些模型的评测多集中于说话上的任意,对于视觉的要求多为简单的物体识别。相对的,计算机视觉最初试图解读图象作为3D场景的投影,而不仅仅处理2D平面“模式”的数组。
为响应这一情况,本文提出了BLINK,这是一个新的尝试集,蕴涵了重新构想的传统计算机视觉题目,使我们能够更全面评价多模态大模型的视觉感知才能,带你揭开GPT4V、Gemini等大模型的视觉界限秘密。
作者相信BLINK将激励社区帮助多模态LLMs达到与人类同等级别的视觉感知才能。
论文链接:https://zeyofu.github.io/blink
什么是BLINK?
BLINK 是一个针对多模态说话模型(Multimodal LLMs)的新基准尝试,专注于评价其核心视觉感知才能,这些才能在其他评价中并未涉及。
BLINK蕴涵 14 项视觉感知任意,拥有3.8k个选择题和7.3k张图象。
人类可以“一眨眼”之间处理这些任意 (例如,相对视深、视觉对应、目标定位,和多视角推理等);但对当前的多模态大型说话模型(Multimodal LLMs)而言,这些任意构成了重大挑战,因为它们难以通过自然说话处理来处理。
平均而言,人类在这些任意上的准确率为95.70%,然而即使是GPT-4V和Gemini也只达到了51.26%和45.72%的准确率,比随机猜想仅高出13.17%和7.63%。
BLINK与其他基准尝试的区别
(1)BLINK 运用了多种的视觉prompts, 如圆形、盒形, 和图象遮罩 masks, 而以前的基准尝试仅蕴涵文本题目和答案。
(2)BLINK评价了更全面的视觉感知才能,如多视角推理、深度估算和反射率估算。以往的基准尝试通常更侧重于基于物体识别的视觉问答(VQA)。
(3)BLINK只蕴涵“视觉”常识性题目,这些题目人类不需要接受教育就可以在一秒钟内回答,而以前的基准尝试像MMMU这样的则需要专业领域知识。
(4)BLINK涵盖了14个需求感知的任意,这些任意受到经典计算机视觉题目的启发。虽然这些题目仅需人类“一眨眼”的时间即可处理,但它们超出了当前多模态大型说话模型的才能。
BLINK 实验结果
本文评价了17个不同大小(即7B,13B,34B)的多模态LLMs在BLINK上的表现。并观察到一个悖论:尽管这些题目对于人类来说很容易(平均准确率为95.70%),但对现有机器来说却极其困难。
7B和13B开源多模态大型说话模型(LLMs)的平均准确率大约在35-42%之间,与随机猜想(38.09%)相似。
最好的开源模型是LLaVA-v1.6-34B,达到了45.05%的准确率。
即使是最新的大模型,如GPT-4V、Gemini Pro和Claude 3 OPUS,其准确率也仅为51.26%、45.72%和44.11%。它们的表现仅比随机猜想好13.17%、7.63%和6.02%,并且比人类的表现差44.44%、49.98%和51.59%。
值得注意的是,在某些任意上,如拼图、语义对应、多视角推理、对象定位和相对反射率,一些多模态LLMs甚至表现不如随机猜想。
BLINK展示大模型的错误范例
对于每项任意,该文章展示了LLaVAv1.6-34B、Qwen-VL-Max、Gemini Pro、GPT-4V和人类的选择。红色选项指的是正确答案。请注意,为了视觉效果,作者故意放大了标记,并且将一些图片做成插图以节省空间。
对于智力测验,第三张图片是通过叠加第一张和第二张图片构成的。
BLINK实验分析
(1)把图片转换成文字是否是处理多模态题目的正确选择?
为了回答这个题目,本文使用GPT-4V将图片转换为与任意无关的密集图片字幕,并使用基于文本的LLM来完成任意(Caption + LLM)。这种密集字幕利用说话描述了图象及视觉提醒的详细信息(例如,每个圆圈的位置)。
作者在BLINK、MMBench和MMMU上进行了实验。令人惊讶的是,Caption + LLM的配置在MMBench和MMMU上的结果远优于BLINK。这些结果表明,图象字幕携带了回答其他基准所需的大部分视觉信息。同时,BLINK需要的高级感知才能超出了通用字幕目前可达到的范围。
(2)视觉提醒(visual prompts)对多模态大模型能产生多大的影响?
本文分析了BLINK中多个任意上圆圈大小和颜色的影响。
实验表明,视觉提醒可能对多模态LLM的性能产生重大影响,改进视觉提醒或提高模型对提醒变化的鲁棒性是未来研究的有前景的方向。根据分析,作者发现最佳圆圈大小依赖于具体任意,平均而言,10px的圆圈效果最好。同样,对于所有任意来说,红色比灰色更好。
(3)传统计算机视觉专家模型能处理BLINK任意吗?
专家可以作为多模态LLM可能达到的上限的代理。这揭示了一个可能性,即多模态LLM可能因正确的数据和培训策略而在这些任意上取得进展。
作者简介:
府星妤 (Xingyu Fu)是宾夕法尼亚大学NLP组的博士生,师从Dan Roth教授。她曾在亚马逊和微软实习。她的研究主要专注于多模态大模型的感知和推理Reasoning。
胡雨石 (Yushi Hu)是华盛顿大学NLP组的博士生,师从Mari Ostendorf 和 Noah Smith 教授。与此同时,他还是艾伦人工智能研究所(AI2)学生研究员,此前曾在谷歌和腾讯AI 实习。他的研究主要专注于多模态大模型和基于反馈的模型训练。