编辑 | 萝卜皮
各种复杂的调理利用给人工智能带来了巨大挑战:需要先进的推理、获取最新的医学知识以及对复杂的多模态数据的理解。Gemini 模型在多模态和长上下文推理方面具有强大的通用本领,为 AI 在医学领域利用提供了可能性。
鉴于 Gemini 的核心优势,谷歌的研讨职员推出了 Med-Gemini,这是一个功能强大的多模态模型系列,专门用于医学,能够无缝运用网络搜寻,并且可以运用自定义编码器有效地针对新颖的模态从事定制。
研讨职员用 14 项调理基准评价 Med-Gemini,在其中 10 项上建立了新的最先进(SOTA)功能,在每个可以从事直接比较的基准测试中,并且远远超过 GPT-4 系列模型。
在 MedQA (USMLE) 基准上,功能最佳的 Med-Gemini 模型运用新颖的不确定性引导搜寻策略,实现了 91.1% 准确率的 SOTA 功能。
在包括 NEJM Image Challenges 和 MMMU(健康与医学)在内的 7 个多模态基准测试中,Med-Gemini 比 GPT-4V 提高了 44.5% 的平均相对优势。同时,Med-Gemini 的长上下文本领,超越了之前仅运用上下文学习的定制方法。
该研讨以「Capabilities of Gemini Models in Medicine」为题,于 2024 年 4 月 29 日发布在 arXiv 预印平台。
医学领域的人工智能利用面临复杂挑战,包括需要精准的临床推理,在不断更新的医学知识中从事有效学习,以及处理包含文本、图像、视频等多种模态的调理数据。
电子病历系统中往往存在的词汇不一致性、异构数据结构、上下文依赖的语义理解难题,以及调理记录中多义性缩写的潜在误解,都是当前AI系统必须克服的具体问题。
此外,AI 系统的安全性和误差,特别是在处理罕见或细致的调理状况时,也是重要的考量点。因此,开发能够综合多源信息、具备长期上下文理解与多模态分析本领的 AI 模型,对于提升调理决策支持和患者护理至关重要。
谷歌的研讨职员提出了一种名为 Med-Gemini 的新型医学专用多模态模型系列,该系列模型源自强大的 Gemini 模型,具备出色的多模态和长上下文推理本领。Med-Gemini 模型通过整合网络搜寻功能,能自适应新模态数据,具有处理跨专科多模态数据的本领。
图示:研讨概述。(起原:论文)
研讨职员在 14 个调理基准中的 25 项使命中评价了 Med-Gemini 的本领,包括文本、多模态和长上下文利用程序。这是迄今为止最全面的多模态调理模型基准测试。
临床语言使命上的SOTA结果
针对临床推理从事优化的 Med-Gemini 运用一种新颖的不确定性引导搜寻策略,在 MedQA (USMLE) 上达到了 91.1% 的 SOTA 功能。
图示:鉴于文本的评价。(起原:论文)
研讨职员与临床专家一起仔细重新注释 MedQA 数据集,并且量化和分析这些优化,发现这些优化是有意义的。Med-Gemini 在 NEJM CPC 和 GeneTuring 基准上表现出 SOTA 功能,进一步证明了搜寻策略的有效性。
图示:将 Med-Gemini-L 1.0 推广到另外两个鉴于文本的基准。(起原:论文)
多模态和长情境本领
Med-Gemini 在研讨职员评价的 7 个多模态调理基准中的 5 个上实现了 SOTA 功能。该团队展示了多模态调理微调的有效性以及运用专用编码器层定制心电图 (ECG) 等新型调理模态的本领。
图示:鉴于长篇文本使命评价。(起原:论文)
Med-Gemini 还表现出强大的长上下文推理本领,在具有挑战性的基准上达到了 SOTA,例如冗长的电子健康记录中的「大海捞针」使命或调理视频理解基准。接下来,研讨职员还将进一步探索 Gemini 在放射报告生成方面的本领。
Med-Gemini 的现实世界效率
除了在流行的调理基准上的表现之外,研讨职员还通过对调理记录摘要、临床转诊信生成和 EHR 问答等使命的定量评价来预览 Med-Gemini 的潜在现实世界效率。
图示:在皮肤科环境中与 Med-Gemini-M 1.5 从事假设多模态诊疗对话的示例。(起原:论文)
该团队展示了多模态诊疗对话中的定性示例以及模型的长上下文功能在医学教育、面向临床医生的工具和生物医学研讨中的利用。
图示:在放射学环境中与 Med-Gemini-M 1.5 从事假设多模态诊疗辅助对话的示例。(起原:论文)
研讨职员表示,此类用途(特别是在诊疗等安全关键领域)仍然需要大量的研讨和开发。
结语
虽然取得了显著成果,Med-Gemini 及其利用仍需进一步验证和优化。尤其是在评价模型对调理影像的精确标注、教育资料检索及与具体解剖结构相关的对话本领上,还有很大的探索空间。
为了在实际调理环境中发挥最大效率,必须密切审视模型在数据检索和生成中的临床错误,主动识别并减轻数据偏见,确保模型的公平性和准确性。
此外,研讨职员提到,针对特定调理专业(如神经学、儿科、精神科)的案例分析显示,模型表现存在差异,提示未来研讨应针对不同专科特点从事定制化改进。
通过持续的临床验证、用户反馈循环和算法迭代,Med-Gemini 模型有望更好地融入临床工作流程,提高医患沟通效率,支持临床决策,最终促进调理质量和患者安全的提升。
总之,大型多模态语言模型正在开创健康和医学的新时代。
论文链接:https://arxiv.org/abs/2404.18416
相关内容:https://twitter.com/_akhaliq/status/1785137044169138641