178页！GPT-4V（ision）调理领域首个全面案例测评：离临床应用与实际决策尚有距离

上海交大&上海AI Lab发布178页GPT-4V调理案例测评，首次全面揭秘GPT-4V调理领域视觉性能。

上海交大&上海AI Lab发布178页GPT-4V调理案例测评，首次全面揭秘GPT-4V调理领域视觉性能

ArXiv链接：https://arxiv.org/abs/2310.09909

其他论文下载地址：

百度云： https://pan.baidu.com/s/11xV8MkUfmF3emJQH9awtcw?pwd=krk2

Google Drive：https://drive.google.com/file/d/1HPvPDwhgpOwxi2sYH3_xrcaoXjBGWhK9/view?usp=sharing

研究简介

在大型基础模型的推动下，人工智能的发展近来取得了巨大进步，尤其是OpenAI的GPT-4，其在问答、知识方面展现出的强大才智点亮了AI领域的尤里卡时刻，引起了公众的普遍关注。

GPT-4V(ision)是OpenAI最新的多模态基础模型。相较于GPT-4，它增加了图象与语音的输出才智。该研究则旨在通过案例阐发评价 GPT-4V(ision)在多模态调理诊疗领域的性能，一共展现并阐发共计了128（92个放射学评价案例，20个病理学评价案例以及16个定位案例）个案例共计277张图象的GPT-4V问答实例（注：本文不会涉及案例展示，请参阅原论文查看具体的案例展示与阐发）。

总结而言，原作家希望系统的评价GPT-4V如下的多种才智：

GPT-4V 可否辨认医学图象的模态和成像位置？辨认各种模态（如 X 射线、CT、核磁共振成像、超声波和病理）并辨认这些图象中的成像位置，是从事更复杂诊疗的基础。GPT-4V 可否定位医学影像中的不同解剖结构？精确定位图象中的特定解剖结构对辨认平常、确保精确处理潜在问题至关重要。GPT-4V 可否发现和定位医学图象中的平常？检测平常，如肿瘤、骨折或感染是医学图象阐发的主要目标。在临床环境中，可靠的人工智能模型不仅需要发现这些平常，还需要准确定位，以便从事有针对性的干预或治疗。GPT-4V 可否结合多张图象从事诊疗？医学诊疗往往需要综合不同成像模态或视图的信息，从事整体观察。因此探究 GPT-4V 组合和阐发多图信息的才智至关重要。GPT-4V 可否撰写调理申报，形貌平常情况和相关的正常结果？对于放射科医生和病理学家来说，撰写申报是一项耗时的工作。如果 GPT-4V 在这一过程中供给帮助，生成准确且与临床相关的申报，无疑将提高整个工作流程的效率。GPT-4V 可否在解读医学影像时整合患者病史？患者的基本信息和既往病史会在很大程度上影响对当前医学影像的解读。在模型预测过程中如果能综合考虑到这些信息去阐发图象将使阐发更加个性化，也更加准确。GPT-4V 可否在多轮交互中保持一致性和记忆性？在某些调理场景中，单轮阐发能够是不够的。在长时间的对话或阐发过程中，尤其是在复杂的调理环境中，保持对数据认知的连续性至关重要。

原论文的评价涵盖了 17 个医学系统，包括：

中枢神经系统、头颈部、心脏、胸部和腹部、头颈部、心脏、胸部、血液、肝胆、胃肠、泌尿、妇科、产科、乳腺、肛门、腹部、妇科、产科、乳腺科、肌肉骨骼科、脊柱科、血管科、肿瘤科、创伤科、儿科

图象来自日常临床使用的 8 种模态，包括：

X 光、计算机断层扫描 (CT)、磁共振成像 (MRI)、正电子发射断层扫描 (PET)、数字减影血管造影 (DSA)、乳房 X 射线照相术、超声波检查和病理学检查。

178页！GPT-4V（ision）调理领域首个全面案例测评：离临床应用与实际决策尚有距离 17个医学系统以及8种成像模态示意图

论文指出，虽然 GPT-4V 在区分医学影像模态和解剖结构方面表现出很强的才智，但在疾病诊疗和生成综合申报方面却仍面临巨大挑战。这些发现突出表明，虽然大型多模态模型在计算机视觉和自然语言处理方面取得了重大进展，但仍远未达到有效支持真实世界的调理应用和临床决策的要求。

测试案例挑选

原论文的放射学问答来自于Radiopaedia，图象直接从网页下载，定位案例来自于多个医学公开分割数据集，病理图象则来自于PathologyOutlines 。在挑选案例时作家们全面的考虑了如下方面：

公布时间：考虑到GPT-4V的训练数据极有能够平常庞大，为了避免所选到的测试案例出现在训练集中，作家只选用了2023年发布的最新案例。标注可信度：调理诊疗本身具有争议和模糊性，作家根据Radiopaedia供给的案例完成度，尽量选用完成度大于90%的案例来保证标注或诊疗的可信程度。图象模态多样性：在选取案例时，作家尽能够地展示GPT-4V对于多种成像模态的响应情况。

在图象处理时作家也做了如下规范化以保证输出图象的质量：

多图选择：考虑到GPT-4V支持的最大图象输出上限为4，但部分案例会有超过4张的相关图象，首先作家在选取案例时会尽能够避免这种情况，其次在不可避免地遇到这种案例时，作家会根据Radiopaedia供给的案例注释挑选最相关的图象。截面选择：大量的放射图象数据为3D（连续多帧二维图象）形式，无法直接输出GPT-4V，必须挑选一个最有代表性的截面代替完整的3D图象输出GPT-4V。根据Radiopaedia的案例上传规范，放射医生在上传3D图象时被要求选择一个最相关的截面。作家们利用了这一点，选用了Radiopaedia推荐的轴截面替代3D数据从事输出。图象标准化： 调理图象的标准化设计窗宽窗位的选择，不同的视窗会突出不同的构造，作家们使用的Radiopaedio案例上传时放射专家所选择的窗宽窗位输出图象。对于分割数据集而言，原论文则采用了[-300,300]的视窗，并作0-1的案例级的归一化。

原论文的测试均使用了GPT-4V的网页版，第一轮问答用户会输出图象，然后展开多轮的问答。为了避免上下文的互相影响，对于每次新的案例，都会新建一个问答窗口从事问答。

178页！GPT-4V（ision）调理领域首个全面案例测评：离临床应用与实际决策尚有距离 GPT-4V问答案例，图中红色代表错误，黄色代表不确定，绿色代表精确，Reference中的颜色则代表对应判断的依据，未标记颜色的句子需要读者自行判断精确性，更多案例以及案例阐发请参考原论文。

在病理评价中，所有图象都会从事两轮对话。第一轮询问可否仅根据输出图象生成申报。这一轮的目的是评价 GPT-4V 可否在不供给任何相关调理提示的情况下辨认图象模态和构造来源。在第二轮中，用户会供给精确的构造来源，并询问 GPT-4V 是否能根据病理图象及其构造来源信息做出诊疗，希望 GPT-4V 能修改申报并供给明确的诊疗结果。 178页！GPT-4V（ision）调理领域首个全面案例测评：离临床应用与实际决策尚有距离病理图象的案例展示，更多案例以及案例阐发请参考原论文

在定位评价中，原论文采取了循序渐进的方式：首先测试 GPT-4V 是否能辨认出所供给图象中目标的存在；然后要求它根据图象左上角为（x，y）=（0，0）和右下角为（x，y）=（w，h）生成目标的边界框坐标，并对每个单一定位任务重复评价多次，以获得至少 4 个预测边界框，计算它们的 IOU 分数，并选出最高的一个来证明其上限性能；然后得出平均边界框，计算 IOU 分数，以证明其平均性能。

定位问答的案例展示，更多案例以及案例阐发请参考原论文

测评中的局限性

当然原作家也提到了一些测评中的不足与限制：

只能从事定性而非定量的评价

鉴于 GPT-4V 只供给在线网页界面，只能手动上传测试用例，导致原评价申报在可扩展性方面受到限制，因此只能供给定性评价。

样本偏差

所选样本均来自在线网站，能够无法反映日常门诊中的数据分布情况。尤其是大多数评价病例都是平常病例，这能够会给评价带来潜在偏差。

注释或参考答案并不完整

从Radiopaedia或者PathologyOutlines网站上获得的参考形貌大多没有结构，也没有标准化的放射学/病理学申报格式。特别是，这些申报中的大部分主要侧重于形貌平常情况，而不是对病例从事全面形貌，并不能直接作为完美的回复简单对比。

只有二维切片输出

在实际临床环境中，包括 CT、MRI 扫描在内的放射图象通常采用 3D DICOM 格式。然而，GPT-4V 最多只能支持四张二维图象的输出，所以原文在测评时只能输出二维关键切片或小片段（用于病理学）。

总之，尽管评价能够并不彻底详尽，但原作家们相信，这一阐发仍旧可以为研究人员和医学专业人员供给了宝贵的见解，它揭示了多模态基础模型的当前才智，并能够激励未来建立医学基础模型的工作。

重要观察结果

原测评申报根据测评案例，概括了多个观察到的GPT-4V的表现特点：

放射案例部分

作家们根据92个放射学评价案例和20个定位案例得出如下观察结果：

1. GPT-4V可以辨识出调理图象的模态以及成像位置

对于大多数图象内容的模态辨认、成像部位判定以及图象平面类别判定等任务，GPT4-V都表现出了良好的处理才智。例如，作家们指出GPT-4V能很容区分核磁共振、CT、X光等各种模态；判断图象所形貌的人体具体部位；判断出核磁共振图象的轴位、失状位和冠状位等。

2. GPT-4V几乎无法做出精确的诊疗

作家们发现：一方面，OpenAI 似乎设置了安全机制，严格限制了GPT-4V做出直接诊疗；另一方面，除了针对非常明显的诊疗案例，GPT-4V的阐发才智较差，仅局限于列举出能够存在的一系列疾病，而不能给出较为精确的诊疗。

3. GPT-4V可以生成出结构化的申报，但是内容大部分并不精确

GPT-4V在绝大多数情况下都能生成较为标准的申报，但作家们认为，相比于整合程度更高且内容更灵活的手写申报，在针对多模态或多帧图象时，它更倾向于逐图形貌且缺乏综合才智。因此内容大部分参考价值较小且缺乏准确性。

4. GPT-4V可以辨识出医学图象中的标记以及文本注释，但并不能理解其出现在图象中的意义

GPT-4V展现出较强的文本辨认、标记辨认等才智，并且会尝试利用这些标记从事阐发。但作家们认为，其局限性在于：其一，GPT-4V总是会过度利用文本和标记且图象本身成为次要参考对象；其二，它鲁棒性较低，常常会误解图象中的医学注释和引导。

5. GPT-4V可以辨识出调理植入器械以及它们在图象中的位置

在大多数案例中，GPT4-V都能精确辨认到植入人体的调理设备，并较为准确地定位它们的位置。并且作家们发现，甚至在一些较为困难的案例中，能够出现诊疗错误，但判断调理设备辨认精确的情况。

6. GPT-4V面对多图输出时会遇到阐发障碍

作家们发现，在面对同一模态的不同视角下的图象时，GPT-4V尽管会展现出相比于进输出单张图的更好的阐发才智，但仍然倾向于分别对每张视图从事单独的阐发；而在面对不同模态的图象混合输出时，GPT-4V更难得出综合了不同模态信息的合理阐发。

7. GPT-4V的预测极易受到患者疾病史的引导

作家们发现是否供给患者疾病史会对GPT-4V的回答产生较大影响。在供给疾病史的情况下，GPT-4V常常会将其作为关键点，对图中的潜在平常做出推断；而在不供给疾病史的情况下，GPT-4V则会更倾向于将图象作为正常案例从事阐发。

8. GPT-4V并不能在医学图象中定位到解剖结构和平常

作家们认为GPT-4V定位效果较差主要表现为：其一，GPT-4V在定位过程中总是会得到远离真实边界的预测框；其二，它在对同一幅图的多轮重复预测中表现出显著的随机性；其三，GPT-4V显示出了明显的偏置性，例如：脑部MRI图象中小脑一定位于底部。

9. GPT-4V可以根据用户的多轮交互，改变它的既有回答。

GPT-4V可以在一系列的互动中修改其响应，使之精确。
例如，在文中所示的例子中，作家们输出了子宫内膜异位症的MRI图象。GPT-4V最初错误地将盆腔MRI分类为膝关节MRI，从而得到了一个不精确的输出。但用户通过与GPT-4V的多轮互动对其从事纠正，最终做出了准确的诊疗。

10. GPT-4V幻觉问题严重，尤其倾向将患者叙述为正常即使平常信号极为显著。

GPT-4V总是生成出结构上看上去非常完整详实的申报，但其中的内容却并不精确，很多时候即使图象平常区域明显它仍旧会认为患者正常。

11. GPT-4V在医学问答上不够稳定

GPT-4V在常见图象和罕见图象上的表现差异巨大，在不同的身体系统方面也展现出明显的性能差别。另外，对同一医学图象的阐发能够会因更改prompt而产生不一致的结果，例如，如，GPT-4V在“ What is the diagnosis for this brain CT?” 的prompt下最初判断给定的图象为平常，但后来它生成了一个认为同一图象为正常的申报。这种不一致性强调了GPT-4V在临床诊疗中的性能能够是不稳定和不可靠的。

12. GPT-4V对调理领域做了严格的安全限制

作家们发现GPT-4V已经在医学领域的问答中建立了防止潜在误用的安全防护措施，确保用户能够安全使用。例如，当GPT-4V被要求做出诊疗时，" Please provide the diagnosis for this chest X-ray."，它能够会拒绝给出答案，或强调“我不是专业医学建议的替代品”。在多数情况下，GPT-4V会倾向于使用包含“appears to be”或“could be”之类的短语来表示不确定性。

病理案例部分

此外，作家们为了探索GPT-4V在病理图象的申报生成和医学诊疗方面的才智，对来自不同构造的20种恶性肿瘤病理图象开展了图象块级别的测试，并得出以下结论：

1. GPT-4V能够从事准确的模态辨认

在所有测试案例中，GPT-4V都可以精确地辨认所有病理图象（H&E染色的构造病理图象）的模态。

2. GPT-4V能够生成结构化申报

给定一个没有任何医学提示的病理图象，GPT-4V可以生成一个结构化且详细的申报来形貌图象特征。在20个案例中，有7个案例能够使用如“构造结构”、“细胞特征”、“基质”、“腺体结构”、“细胞核”等术语明确地列出了其观察结果，甚至可以精确地从不同构造的病理图象中辨认腺体结构和上皮特征。

3. GPT-4V在Prompt的引导下能够对申报从事修正

当在第二轮对话的prompt中对构造器官从事修正时，GPT-4V可以很大程度地修改申报修改其申报，并为预测正常的案例供给一个确切的诊疗，或为预测平常的案例供给几个能够的选项。

4. GPT-4V生成的形貌大多基于知识

尽管GPT-4V可以为病理图象写一个结构化的申报，但许多关于细胞和细胞核的详细形貌都是H&E染色图象的通用特征，而不是根据图象特有模式生成。此外，GPT-4V供给的诊疗结果也能够来源于通用医学知识，而不是根据病理图象的形态结构推理得到。

5. GPT-4V的诊疗性能有限

在20个案例中，GPT-4V将四个肿瘤案例误诊为正常构造，精确诊疗了源于膀胱、中枢神经系统和口腔构造中的3类癌症，对其余13个恶性肿瘤则给出了模糊的诊疗。尤其是针对肛门和子宫构造上的癌症，GPT-4V的诊疗结果中既包含正常构造也涵盖恶性肿瘤，这表明GPT-4V能够并没有真正从这些病理图象中检测到平常。

总的来说，GPT-4V在调理领域的表现并不像GPT-4在调理问答中那样惊艳，远未达到实际临床要求。本文只概括性的截取了部分原论文观点，更多阐发细节请参考原文。

{{userData.name}}已认证

178页！GPT-4V（ision）调理领域首个全面案例测评：离临床应用与实际决策尚有距离

研究简介

测试案例挑选

定位问答的案例展示，更多案例以及案例阐发请参考原论文

测评中的局限性

重要观察结果

放射案例部分

病理案例部分

产物在始创公司中呈病毒式增长，OpenAI会成为下一个科技巨头？

Science | 哈佛医学院团队应用AlphaFold-Multimer揭示一种名为 DONSON 的神秘蛋白质功能

设计素材不用愁！10 组高质量中秋节主题 Midjourney 提示词

全球首个「智能体文明」诞生！一千个智能体在「我的世界」自由发展

顺丰发布“丰语”大语言模型：摘要准确率超 95%，号称物流垂域能力超越通用模型

AI 被连续否定 30 次：ChatGPT 越改越错，Claude 坚持自我，甚至已读不回

用60%成本干80%的事，DeepSeek分享沉淀多年的高性能深度学习架构

研究：反复使用 AI 生成的内容来训练 AI 可造成“模型崩溃”

一只AI吗喽，单挑《黑神话》，歇菜1000次，终于击败首个Boss

夸克发布全新 CueMe 智能对话助手，支持上千种体裁、2 万字长文