GPT-4V医学执照考查成绩超过大部分医学生,AI加入临床还有多远?

人工智能(AI)在医学影像诊疗方面的应用已经有了长足的进步。然而,在未经严格尝试的情况下,大夫往往难以采信人工智能的诊疗结果。对于他们来说,理解人工智能根据医学影像给出的判别,需要增加额外的认知成本。为了增强大夫对辅助调理的人工智能之间的信任,让 AI 通过一个大夫必须通过的资格考查或许是一个有效的方法。医学执照考查是用来评估大夫专业知识和技能的标准化考查,是衡量一个大夫是否有能力安全有效地护理患者的基础。在最新的研讨中,来自马萨诸塞大学、复旦大学的跨学科研讨人员团队利用生成式多模态预训练模型 GPT-4V (is

人工智能(AI)在医学影像诊疗方面的应用已经有了长足的进步。然而,在未经严格尝试的情况下,大夫往往难以采信人工智能的诊疗结果。对于他们来说,理解人工智能根据医学影像给出的判别,需要增加额外的认知成本。

为了增强大夫对辅助调理的人工智能之间的信任,让 AI 通过一个大夫必须通过的资格考查或许是一个有效的方法。医学执照考查是用来评估大夫专业知识和技能的标准化考查,是衡量一个大夫是否有能力安全有效地护理患者的基础。

在最新的研讨中,来自马萨诸塞大学、复旦大学的跨学科研讨人员团队利用生成式多模态预训练模型 GPT-4V (ision) 突破了人工智能在医学问答中的最佳水平。研讨尝试了 GPT-4V 答复美国医学执照考查题的能力,特别是课题包含图象的考题 —— 这对调理人工智能系统来说一直以来都是一项挑战。

该研讨表明,GPT-4V 不仅超越了 GPT-4 和 ChatGPT 等前辈,还超越了大部分医学生,为人工智能能够作为辅助诊疗和临床决策的工具提供了理论上的可能。该研讨分析了 GPT-4V 在不同医学子领域的性能。

同时,该研讨还指出了调理人工智能在一致说明方面的局限性,强调了人机协作在未来调理诊疗中的重要性。

GPT-4V医学执照考查成绩超过大部分医学生,AI加入临床还有多远?

论文链接:https://www.medrxiv.org/content/10.1101/2023.10.26.23297629v3

尝试课题收集

该研讨中,用来尝试人工智能医学执照考查的题型为涉及不同医学领域、难度各异的带有图象的选择题。论文作家们选择了来自美国医学执照考查(USMLE)、医学生考查题库(AMBOSS)和诊疗放射学资格核心考查(DRQCE)的三套选择题,共计 226 道题(28 个医学领域),来尝试 GPT-4V 的准确性。

其中 AMBOSS 和 DRQCE 的数据未公开,需要用户注册后才能获取。AMBOSS 数据集中的每个课题都设定有对应的难度。课题按难易程度分五级,1、2、3、4 和 5 级分别代表学生第一次作答时最容易答对的 20%、20%-50%、50%-80%、80%-95% 和 95%-100% 的课题。

此外,作家们还收集了调理专业人士的偏好,用以评估 GPT-4V 的说明是否违背医学常识。当 GPT-4V 做错的时候,作家们还收集了来自调理专业人士的反馈,用来改善 GPT-4V。

GPT-4V医学执照考查成绩超过大部分医学生,AI加入临床还有多远?

                                         用美国医学执照考查(USMLE)中包含图象的考题尝试 GPT-4V。

准确性

结果显示,GPT-4V 在带有图象的医学执照考查题上表现出了很高的准确率,分别在 USMLE、AMBOSS 和 DRQCE 上达到了 86.2%、62.0% 和 73.1%,远远超过了 ChatGPT 和 GPT-4。与准备考查的学生相比,GPT-4V 的大致排名能达到前 20-30% 的水平。

而在 2022 年,美国医学执照考查大约有前 90% 的考生通过了考查,这意味着 GPT-4V 想要获得通过,也相对较为轻松。GPT-4V 的准确率反映了它掌握大量生物医学和临床科学知识,也能够解决医患相处中遇到的课题。这些都是进入医学临床实践的必备技能。

GPT-4V医学执照考查成绩超过大部分医学生,AI加入临床还有多远?                                    GPT-4V在美国医学执照考查(USMLE)的尝试表现远远超过了 ChatGPT 和 GPT-4。

在运用提醒和不运用提醒的情况下,GPT-4V 在 AMBOSS 的准确率分别为 86% 和 63%。随着课题难度的增加,不运用提醒时 GPT-4V 的表现呈现下降趋势(卡方检验,显著性水平 0.05)。然而,当运用提醒提问时,这种下降趋势并未明显观察到。这表明,来自调理专业人士的提醒可以很好的帮助 GPT-4 做出正确的决策。

GPT-4V医学执照考查成绩超过大部分医学生,AI加入临床还有多远?

                                       GPT-4V 和学生在不同难度 AMBOSS 考查上的准确率

说明性

在说明质量方面,作家们发现,当 GPT-4V 答复正确时,调理专业人士对 GPT-4V 给出的说明与专家给出的说明的偏好相差不大。这说明 GPT-4V 的说明具有可信度和专业性。作家们还发现,在 GPT-4V 的说明中,有超过 80% 的答复包含了对课题中图象和文本的解读,这说明 GPT-4V 能够利用多模态的数据来生成答复。

然而,当 GPT-4V 答复故障时,它的说明中也存在一些严重的课题,例如图象误会(Image misunderstanding)、文本幻觉(Text hallucination)、推理故障(Reasoning error)等,这些课题可能会影响 GPT-4V 的可靠性和可说明性。

GPT-4V医学执照考查成绩超过大部分医学生,AI加入临床还有多远?

针对每道考查题,调理专业人员从专家生成的说明和 GPT-4V 生成的说明中选择偏好。考查分为 Step1, Step2CK, Step3 共 3 个阶段。每个阶段抽取 50 道课题进行尝试。

作家发现许多 GPT-4V 答复故障的说明是图象误会。在 55 个故障答复中,有 42 个答复(76.3%)是由图象理解故障所导致的。相比之下,只有 10 个答复(18.2%)故障归因于文本幻觉。

针对图象误会,作家建议运用以图象或者文字为形式的提醒。例如,大夫可以用箭头指示图中重要的位置,或者用一两句话来说明图象的意义来提醒模型。当大夫运用文字提醒的时候,就有 40.5% (17/42 个) 之前故障的答复被 GPT-4V 改正了。

辅助诊疗的潜力

作家还展示了运用 GPT-4V 作为影像诊疗辅助工具的可能性。基于一个高血压病人的病例报告,大夫对 GPT-4V 进行提问。定性分析表明,GPT-4V 能够根据 CT 扫描图象、化验单和病人症状等其他信息,提供鉴别诊疗和后续检查的建议。详细分析请参考原论文。

结论与展望

作家们认为,GPT-4V 在带有图象的医学执照考查题上展现了非凡的准确率,在临床决策支持方面,GPT-4V 具备无穷的潜力。然而,GPT-4V 还需要改进它的说明质量和可靠性,才能真正适用于临床场景。

论文中尝试运用提醒来改进 GPT-4V 的判断,取得了不错的效果,这为未来的研讨提出了一个有希望的方向:开发更精细的人类人工智能协作系统,使得其成为临床环境中更可靠的工具。随着技术的不断进步和研讨不断深入,我们有理由相信,AI 将在提高调理质量、减轻大夫工作负担和促进调理服务普及化方面继续发挥重要作用。

给TA打赏
共{{data.count}}人
人已打赏
理论

开源多模态调理根蒂根基模型RadFM,首次支持2D/3D喷射影象输出

2023-11-20 17:15:00

理论

用检索巩固生成让大模型更强大,这里有个手把手的Python实现

2023-11-21 11:31:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索