所见,所问,所答:上海交大&上海AI Lab发布最新调理多模态问答框架PMC-VQA

PMC系列持续更新,大规模医学视觉问答数据集PMC-VQA强势来袭!

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering 是上海交通大学与上海人工智能实验室联合团队PMC系列的最新研究成果,该研究聚焦视觉指令微调,发表大规模医学视觉问答数据集PMC-VQA与首个医学视觉指令微调模型MedVInT。

所见,所问,所答:上海交大&上海AI Lab发布最新调理多模态问答框架PMC-VQA

论文链接:https://arxiv.org/pdf/2305.10415.pdf
代码链接:https://github.com/xiaoman-zhang/PMC-VQA
PMC-VQA Dataset: https://huggingface.co/datasets/xmcmic/PMC-VQA
Huggingface Model: https://huggingface.co/xmcmic/MedVInT-TE

研究背景

近期大说话模型在各种自然说话处理任务中都取得了显著进展,如成绩解答、文本分类和交互对话。近期 Google & DeepMind 发表在 Nature 上的 Med-PaLM进一步展现了大说话模型在调理规模的应用潜力,在医学理解、知识检索和推理方面等成绩上取得了优异的性能。然而,医学规模的成绩显然是多模态的,当前对多模态的基础模型的研究,面临着数据,模型,训练与评测方方面面的挑战。我们首先从数据入手提出了PMC-OA,一个从科学文献中构建高质量调理多模态数据集数据集,进一步的针对多模态基础模型的评测成绩,我们关注于医学视觉问答任务(MedVQA),提出了PMC-VQA,包含227k的视觉问答对,是当前调理规模模态最多,数据规模最大的多模态问答数据集(如图1所示)。

所见,所问,所答:上海交大&上海AI Lab发布最新调理多模态问答框架PMC-VQA图1:现有调理视觉问答数据集汇总,展现了PMC-VQA数据集的规模以及模态的丰富性

数据集介绍

PMC-VQA是在我们之前提出的PMC-OA数据集[1]的基础上构建的,所用到的是从2.5M的科学文献中收集了381K的调理图文对,我们根据图象对应的标题,通过prompt ChatGPT构建对应的问答对(见图4b),再进行进一步的筛选以得到。

PMC-VQA数据集共包含227k视觉问答对,对应约149k的图象,其中图象可能为单图,也可能为多张图象的组合。图2为PMC-VQA数据集示例,与以往的调理视觉问答数据集不同的是,PMC-VQA的谜底不是一个固定的集合,我们每个成绩都提供了正确谜底和另外三个选项。这样基于PMC-VQA数据集,模型可以做生成式的视觉问答(Open-ended)以及选择题的视觉问答(Multiple Choice)

所见,所问,所答:上海交大&上海AI Lab发布最新调理多模态问答框架PMC-VQA图2:MedVInT模型架构图以及PMC-VQA生成过程

图3进一步地展现了PMC-VQA数据集成绩的多样性。图4展现了PMC-VQA数据的分布。

所见,所问,所答:上海交大&上海AI Lab发布最新调理多模态问答框架PMC-VQA图3:PMC-VQA数据集的成绩分布

所见,所问,所答:上海交大&上海AI Lab发布最新调理多模态问答框架PMC-VQA图3:PMC-VQA数据集的成绩和谜底的长度分布

任务介绍

Multi-choice MedVQA

对于每个成绩,提供四个候选谜底作为提示,训练模型从中选出正确谜底(A/B/C/D)。具体来说,模型的输出为 “Question: q, the options are: a1, a2, a3, a4, the answer is:”,ai为第i个选项。

Open-ended MedVQA

对于每个成绩,不提供选项输出,训练模型根据图象和成绩直接生成对应的谜底。具体来说,模型的输出为 “Question: q, the answer is:”, 预期的输出出为ai,即正确谜底。

模型介绍

现有的MedVQA的方法通常将该成绩视为一个在有限谜底集合上的检索任务,并以对比或分类为目标来训练模型,所以这些方法仅适用于事先提供谜底集合的情况。PMC-VQA为规模探索开放式生成视觉问答提供了可能性,我们也基于PMC-VQA,提出了首个开放式的多模态问答模型MedVInT,该模型能够处理临床实践中出现的各种成绩,以自由文本的形式生成谜底。

模型结构

我们针对encoder-based和decoder-based的两种说话模型结构提出了两种变体,包括MedVInT-TE和MedVInT-TD。模型主要有三个部分组成,视觉编码器,文本编码器以及多模态解码器。对于encoder-based的说话模型,直接对输出的文本进行编码得到文本特征,与视觉特征合并后作为多模态解码器的输出。对于decoder-based的说话模型,文本编码器和多模态解码器则分别为说话模型的embedding layer和其他部分,对输出的成绩进行编码后与视觉特征合并,输出多模态解码器。

所见,所问,所答:上海交大&上海AI Lab发布最新调理多模态问答框架PMC-VQA图4:MedVInT模型架构图以及PMC-VQA生成过程

实验结果

MedVInT在PMC-VQA上训练的结果如表1所示,我们可以看到现有的自然图象上的多模态模型基本不具有调理视觉问答能力,可见针对调理规模构造调理多模态基础模型的重要性。

所见,所问,所答:上海交大&上海AI Lab发布最新调理多模态问答框架PMC-VQA图4:MedVInT模型架构图以及PMC-VQA生成过程

此外,我们将PMC-VQA训练后的MedVInT在已有的MedVQA数据集上进行训练,MedVInT在已有的MedVQA数据集上超过了现有SOTA的方法。

所见,所问,所答:上海交大&上海AI Lab发布最新调理多模态问答框架PMC-VQA表2:MedVInT在VQA-RAD和SLAKE数据集上的测试结果

References

[1] Weixiong Lin, Ziheng Zhao, Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, and WeidiXie. Pmc-clip: Contrastive language-image pre-training using biomedical documents. MICCAI, 2023.

给TA打赏
共{{data.count}}人
人已打赏
AI

当前的人工智能比二年级学生聪明吗?SMART-101挑战赛现在开始了! VLAR@ICCV 2023

2023-7-17 10:36:00

AI

专访AMD芯片架构师Sam Naffziger:Chiplet将如何影响芯片制作

2023-7-17 17:20:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索