多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

2024-05-13 03:58

编辑 | 白菜叶许多临床任务需要了解专业数据，例如医学图像、基因组学，这类专业知识信息在通用多模态大模型的训练中通常不存在。在上一篇论文的描述中，Med-Gemini 在各种医学成像任务上超越 GPT-4 系列模型实现了 SOTA！在这里，Google DeepMind 撰写了第二篇关于 Med-Gemini 的论文。在 Gemini 的多模态模型的基础上，该团队为 Med-Gemini 系列开发了多个模型。这些模型继承了 Gemini 的核心功能，并通过 2D 和 3D 放射学、组织病理学、眼科、皮肤病学和基因组

编辑 | 白菜叶

许多临床任务需要了解专业数据，例如医学图像、基因组学，这类专业知识信息在通用多模态大模型的训练中通常不存在。

在上一篇论文的描述中，Med-Gemini 在各种医学成像任务上超越 GPT-4 系列模型实现了 SOTA！

在这里，Google DeepMind 撰写了第二篇关于 Med-Gemini 的论文。

在 Gemini 的多模态模型的基础上，该团队为 Med-Gemini 系列开发了多个模型。这些模型继承了 Gemini 的核心功能，并通过 2D 和 3D 放射学、组织病理学、眼科、皮肤病学和基因组数据的微调，针对医疗用途进行了优化：

1、Med-Gemini-2D：能够处理放射学、病理学、皮肤科、眼科图像；

2、Med-Gemini-3D：能够处理 CT 图像；

3、Med-Gemini-Polygenic：能够处理基因组「图像」。

该研究以「Advancing Multimodal Medical Capabilities of Gemini」为题，于 2024 年 5 月 6 日发布在 arXiv 预印平台。

来自生物样本库、电子健康记录、医学成像、可穿戴设备、生物传感器和基因组测序等不同来源的医疗数据正在推动多模态人工智能解决方案的开发，从而更好地捕捉人类健康和疾病的复杂性。

虽然医学领域的人工智能主要专注于具有单一输入和输出类型的狭窄任务，但生成人工智能的最新进展显示出在解决医疗环境中的多模态、多任务挑战方面的前景。

以 Gemini 等强大模型为代表的多模态生成人工智能拥有彻底改变医疗保健的巨大潜力。虽然医学是这些新模型快速迭代的数据来源，但由于其高度专业化的数据，通用模型在医学领域应用时通常表现不佳。

基于 Gemini 的核心功能，DeepMind 推出了 Med-Gemini 系列的三个新模型，Med-Gemini-2D、Med-Gemini-3D、Med-Gemini-Polygenic。

图示：Med-Gemini 概述。（来源：论文）

来自 370 万张医学图像和病例的超过 700 万个数据样本用于训练模型。使用各种视觉问答和图像字幕数据集，包括一些来自医院的私人数据集。

为了处理 3D 数据 (CT)，使用了 Gemini 视频编码器，其中时间维度被视为深度维度。为了处理基因组数据，各种性状的风险评分被编码为图像中的 RGB 像素。

图示：使用个人的 PRS 图像和人口统计信息预测冠状动脉疾病的示例。（来源：论文）

Med-Gemini-2D

Med-Gemini-2D 根据专家评估，为基于人工智能的胸部 X 射线（CXR）报告生成制定了新标准，超过了之前两个独立数据集的最佳结果，绝对优势为 1% 和 12%，其中 AI 的正常病例报告为 57% 和 96%，异常病例报告为 43% 和 65%，与原始放射科医生的报告相比质量「相当」甚至「更好」。

图示：Med-Gemini-2D 在胸部 X 射线分类任务上的性能。（来源：论文）

Med-Gemini-2D 在分布胸部 X 射线分类任务上优于通用的较大 Gemini 1.0 Ultra 模型（在训练期间看到了来自同一数据集的示例）。对于分布外的任务，性能各不相同。

图示：Med-Gemini-2D 组织病理学图像分类性能。（来源：论文）

在组织病理学分类任务上，Med-Gemini 的表现大多优于 Gemini Ultra，但未能超越病理学特定的基础模型。

图示：PAD-UFES-20 分类任务的性能。（来源：论文）

在皮肤病变分类上，观察到类似的趋势（特定领域模型 > Med-Gemini > Gemini Ultra），尽管 Med-Gemini 与特定领域模型非常接近。

图示：Med-Gemini-2D、Gemini Ultra 和使用眼底图像分类附加数据进行训练的监督模型的性能比较。（来源：论文）

对于眼科分类，再次看到类似的情况。请注意，特定领域模型是在约 200 倍的数据上进行训练的，因此相比之下，Med-Gemini 的表现相当不错。

图示：VOA 任务的评估详细信息。（来源：论文）

该团队还评估了医学视觉问答（VQA）方面的 Med-Gemini-2D 模型。在这里，他们的模型在许多 VQA 任务上都非常强大，经常击败 SOTA 模型。Med-Gemini-2D 在 CXR 分类和放射学 VQA 方面表现良好，在 20 项任务中的 17 项上超过了 SOTA 或基线。

图示：评估详细说明了胸部 X 光检查报告的生成。（来源：论文）

除了对医学图像的简单狭义解释之外，作者还评估了 Med-Gemini-2D 在胸部 X 射线放射学报告生成方面的表现，并观察到它根据放射学专家的评估实现了 SOTA！

Med-Gemini-3D

图示：头部 CT 体积报告生成的人工评估结果。（来源：论文）

Med-Gemini-3D 不仅仅适用于 2D 图像，还应用于自动化端到端 CT 报告生成。根据专家评估，其中 53% 的 AI 报告被认为是临床可接受的，尽管需要进行额外的研究来满足专家放射科医生的报告质量，但这是第一个能够完成此任务的生成模型。

Med-Gemini-Polygenic

最后，根据各种性状的多基因风险评分，对 Med-Gemini-Polygenic 的健康结果预测进行了评估。该模型通常优于现有基线。

图示：使用 Med-Gemini-Polygenic 与分布不均和分布外结果的两个基线进行比较的健康结果预测。（来源：论文）

以下是 Med-Gemini 支持的多模态对话的一些示例！

图示：通过开放式问答的 2D 医学图像对话示例。（来源：论文）

在组织病理学、眼科和皮肤科图像分类中，Med-Gemini-2D 在 20 项任务中的 18 项中超越了基线，并接近特定任务的模型性能。

结语

总体而言，这项工作在通用多模态医疗人工智能模型方面取得了有益的进展，但显然还有很大的改进空间。许多特定领域模型的性能优于 Med-Gemini，但 Med-Gemini 能够在数据较少和更通用的方法下表现良好。有趣的是，Med-Gemini 在依赖更多语言理解的任务（例如 VQA 或放射学报告生成）上似乎表现得更好。

研究人员设想未来所有这些单项功能都集成到综合系统中，从而执行一系列复杂的多学科临床任务。AI 与人类一起工作，从而最大限度地提高临床疗效并改善患者的治疗结果。

论文链接：https://arxiv.org/abs/2405.03162

相关内容：https://twitter.com/iScienceLuvr/status/1789216212704018469

谷歌押注多模态AI，BigQuery湖仓一体是核心支柱

根据多家调研机构的预测，未来几年，全球多模态AI市场的年增长率将超过35%，而谷歌正在积极布局，以期在这一蓬勃发展的市场中占据领先地位。谷歌云计算部门最近宣称，将文本、图像、视频、音频和其他非结构化数据与生成式人工智能（GenAI）处理相结合的多模态AI，将成为2025年五大人工智能趋势之一。 BigQuery湖仓一体引领谷歌多模态AI战略谷歌负责数据、分析和人工智能战略的产品主管Yasmeen Ahmad表示，BigQuery数据仓库是谷歌多模态AI战略的核心支柱，公司正致力于将其重塑为能够整合并分析多样化数据类型的湖仓一体（Data Llakehouse）。

1/21/2025 5:02:14 PM

极客IT

消息称阿里引入顶级人工智能科学家或将加码AI To C业务

近期，阿里巴巴在AI领域迎来了一位重量级人物。据业内人士透露，一位全球顶级人工智能科学家已于近期正式入职阿里巴巴，未来或将专注于AI To C业务的基础大模型研发与应用。这位科学家在工业界和学术界均拥有超过20年的经验，尤其在多模态AI领域成果丰硕，曾主导发表过上百篇大模型顶级论文。

2/4/2025 2:08:00 PM

AI在线

DeepSeek深夜再放大招，发布全新多模态大模型Janus-Pro

国产大模型DeepSeek发布了全新的Janus-Pro多模态大模型，正式进军文生图领域。这一举动标志着DeepSeek在多模态AI技术上的重大突破。在GenEval和DPG-Bench基准测试中，Janus-Pro-7B不仅击败了OpenAI的DALL-E3，还超越了Stable Diffusion、Emu3-Gen等热门模型。

2/9/2025 8:59:26 AM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发本地部署DeepSeek+DiFy平台构建智能体应用击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

相关资讯

谷歌押注多模态AI，BigQuery湖仓一体是核心支柱

消息称阿里引入顶级人工智能科学家 或将加码AI To C业务

DeepSeek深夜再放大招，发布全新多模态大模型Janus-Pro

消息称阿里引入顶级人工智能科学家或将加码AI To C业务