多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

编辑 | 白菜叶许多临床恣意需要了解专业数据，例如医学图象、基因组学，这类专业知识信息在通用多模态大模型的训练中通常不存在。在上一篇论文的描述中，Med-Gemini 在各种医学成像恣意上超越 GPT-4 系列模型实现了 SOTA！在这里，Google DeepMind 撰写了第二篇关于 Med-Gemini 的论文。在 Gemini 的多模态模型的基础上，该团队为 Med-Gemini 系列开发了多个模型。这些模型继承了 Gemini 的核心功能，并通过 2D 和 3D 放射学、组织病理学、眼科、皮肤病学和基因组

编辑 | 白菜叶

许多临床恣意需要了解专业数据，例如医学图象、基因组学，这类专业知识信息在通用多模态大模型的训练中通常不存在。

在上一篇论文的描述中，Med-Gemini 在各种医学成像恣意上超越 GPT-4 系列模型实现了 SOTA！

在这里，Google DeepMind 撰写了第二篇关于 Med-Gemini 的论文。

在 Gemini 的多模态模型的基础上，该团队为 Med-Gemini 系列开发了多个模型。这些模型继承了 Gemini 的核心功能，并通过 2D 和 3D 放射学、组织病理学、眼科、皮肤病学和基因组数据的微调，针对医疗用途进行了优化：

1、Med-Gemini-2D：能够处理放射学、病理学、皮肤科、眼科图象；

2、Med-Gemini-3D：能够处理 CT 图象；

3、Med-Gemini-Polygenic：能够处理基因组「图象」。

该研究以「Advancing Multimodal Medical Capabilities of Gemini」为题，于 2024 年 5 月 6 日发布在 arXiv 预印平台。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

来自生物样本库、电子健康记录、医学成像、可穿戴设备、生物传感器和基因组测序等不同来历的医疗数据正在推动多模态人工智能解决方案的开发，从而更好地捕捉人类健康和疾病的复杂性。

虽然医学范畴的人工智能主要专注于具有单一输入和输出类型的狭窄恣意，但生成人工智能的最新进展显示出在解决医疗环境中的多模态、多恣意挑战方面的前景。

以 Gemini 等强大模型为代表的多模态生成人工智能拥有彻底改变医疗保健的巨大潜力。虽然医学是这些新模型快速迭代的数据来历，但由于其高度专业化的数据，通用模型在医学范畴应用时通常表现不佳。

基于 Gemini 的核心功能，DeepMind 推出了 Med-Gemini 系列的三个新模型，Med-Gemini-2D、Med-Gemini-3D、Med-Gemini-Polygenic。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：Med-Gemini 概述。（来历：论文）

来自 370 万张医学图象和病例的超过 700 万个数据样本用于训练模型。使用各种视觉问答和图象字幕数据集，包括一些来自医院的私人数据集。

为了处理 3D 数据 (CT)，使用了 Gemini 视频编码器，其中时间维度被视为深度维度。为了处理基因组数据，各种性状的风险评分被编码为图象中的 RGB 像素。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：使用个人的 PRS 图象和人口统计信息预测冠状动脉疾病的示例。（来历：论文）

Med-Gemini-2D

Med-Gemini-2D 根据专家评价，为基于人工智能的胸部 X 射线（CXR）陈说生成制定了新标准，超过了之前两个独立数据集的最佳结果，绝对优势为 1% 和 12%，其中 AI 的正常病例陈说为 57% 和 96%，异常病例陈说为 43% 和 65%，与原始放射科医生的陈说相比质量「相当」甚至「更好」。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：Med-Gemini-2D 在胸部 X 射线分类恣意上的本能。（来历：论文）

Med-Gemini-2D 在分布胸部 X 射线分类恣意上优于通用的较大 Gemini 1.0 Ultra 模型（在训练期间看到了来自同一数据集的示例）。对于分布外的恣意，本能各不相同。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：Med-Gemini-2D 组织病理学图象分类本能。（来历：论文）

在组织病理学分类恣意上，Med-Gemini 的表现大多优于 Gemini Ultra，但未能超越病理学一定的基础模型。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：PAD-UFES-20 分类恣意的本能。（来历：论文）

在皮肤病变分类上，观察到类似的趋势（一定范畴模型 > Med-Gemini > Gemini Ultra），尽管 Med-Gemini 与一定范畴模型非常接近。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：Med-Gemini-2D、Gemini Ultra 和使用眼底图象分类附加数据进行训练的监督模型的本能比较。（来历：论文）

对于眼科分类，再次看到类似的情况。请注意，一定范畴模型是在约 200 倍的数据上进行训练的，因此相比之下，Med-Gemini 的表现相当不错。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：VOA 恣意的评价详细信息。（来历：论文）

该团队还评价了医学视觉问答（VQA）方面的 Med-Gemini-2D 模型。在这里，他们的模型在许多 VQA 恣意上都非常强大，经常击败 SOTA 模型。Med-Gemini-2D 在 CXR 分类和放射学 VQA 方面表现良好，在 20 项恣意中的 17 项上超过了 SOTA 或基线。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：评价详细说明了胸部 X 光检查陈说的生成。（来历：论文）

除了对医学图象的简单狭义解释之外，作者还评价了 Med-Gemini-2D 在胸部 X 射线放射学陈说生成方面的表现，并观察到它根据放射学专家的评价实现了 SOTA！

Med-Gemini-3D

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：头部 CT 体积陈说生成的人工评价结果。（来历：论文）

Med-Gemini-3D 不仅仅适用于 2D 图象，还应用于自动化端到端 CT 陈说生成。根据专家评价，其中 53% 的 AI 陈说被认为是临床可接受的，尽管需要进行额外的研究来满足专家放射科医生的陈说质量，但这是第一个能够完成此恣意的生成模型。

Med-Gemini-Polygenic

最后，根据各种性状的多基因风险评分，对 Med-Gemini-Polygenic 的健康结果预测进行了评价。该模型通常优于现有基线。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：使用 Med-Gemini-Polygenic 与分布不均和分布外结果的两个基线进行比较的健康结果预测。（来历：论文）

以下是 Med-Gemini 支持的多模态对话的一些示例！

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：通过开放式问答的 2D 医学图象对话示例。（来历：论文）

在组织病理学、眼科和皮肤科图象分类中，Med-Gemini-2D 在 20 项恣意中的 18 项中超越了基线，并接近一定恣意的模型本能。

结语

总体而言，这项工作在通用多模态医疗人工智能模型方面取得了有益的进展，但显然还有很大的改进空间。许多一定范畴模型的本能优于 Med-Gemini，但 Med-Gemini 能够在数据较少和更通用的方法下表现良好。有趣的是，Med-Gemini 在依赖更多语言理解的恣意（例如 VQA 或放射学陈说生成）上似乎表现得更好。

研究人员设想未来所有这些单项功能都集成到综合系统中，从而执行一系列复杂的多学科临床恣意。AI 与人类一起工作，从而最大限度地提高临床疗效并改善患者的治疗结果。

论文链接：https://arxiv.org/abs/2405.03162

相关内容：https://twitter.com/iScienceLuvr/status/1789216212704018469

{{userData.name}}已认证

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

除了一键启动Copilot，什么是AI PC本来该有的样子？

语音分解之王ElevenLabs搅局音乐界，新模型创作水准堪驰援《歌手》

推理模型 DeepSeek-R1-Lite 预览版上线，号称媲美 OpenAI o1-preview

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

九大成像模式一键解析，生物医学图像AI再迎突破！微软、UW等BiomedParse登Nature子刊

SU 哈佛亚马逊最新研究：量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了

微软在东京开设其日本首个研发中心，专注于将机器人技术与 AI 相结合

AI 助力脑瘤手术：10 秒内精准识别残留肿瘤

闲鱼注册用户突破 6 亿，AI 技术已应用于闲置交易全链路

消息称 AI 创企边塞科技被蚂蚁集团收购：公司会独立运营，投资人已退出