登Nature,超越GPT-4V,MIT、哈佛开发人类病理学多模态AI「副驾驶」

编辑 | KX多年来,计较病理学范畴在基于图象、基因组学数据开发越来越准确、针对特定任务的预测模型方面取得了显著进步。然而,尽管生成式人工智能 (AI) 呈爆炸式增长,但在构建针对病理学的通用、多模态 AI 帮忙和「副驾驶」(Copilot)方面的研讨却有限。近日,哈佛大学和 MIT 的研讨团队提出了一种用于人类病理学的视觉言语通才 AI 帮忙:PathChat。研讨职员将 PathChat 与几种多模态视觉言语 AI 帮忙和 GPT-4V 举行了比较。PathChat 在来自不同组织滥觞和疾病模型的病例的多项选择

登Nature,超越GPT-4V,MIT、哈佛开发人类病理学多模态AI「副驾驶」

编辑 | KX

多年来,计较病理学范畴在基于图象、基因组学数据开发越来越准确、针对特定任务的预测模型方面取得了显著进步。

然而,尽管生成式人工智能 (AI) 呈爆炸式增长,但在构建针对病理学的通用、多模态 AI 帮忙和「副驾驶」(Copilot)方面的研讨却有限。

近日,哈佛大学和 MIT 的研讨团队提出了一种用于人类病理学的视觉言语通才 AI 帮忙:PathChat。

研讨职员将 PathChat 与几种多模态视觉言语 AI 帮忙和 GPT-4V 举行了比较。PathChat 在来自不同组织滥觞和疾病模型的病例的多项选择诊疗课题上取得了最佳表现。此外,通过开放式课题和人类专家评价,PathChat 总体上对与病理学相关的各种查询给出了更准确、更受病理学家青睐的答案。

作为一种可以灵活处理视觉和自然言语输入的交互式通用视觉言语 AI Copilot,PathChat 可以在病理学教育、研讨和人机交互临床决策方面找到有影响力的应用。

相关研讨以「A Multimodal Generative AI Copilot for Human Pathology」为题,发布在《Nature》上。

登Nature,超越GPT-4V,MIT、哈佛开发人类病理学多模态AI「副驾驶」

论文链接:https://www.nature.com/articles/s41586-024-07618-3

近年来,计较病理学范畴经历了显著的变革,这得益于数字切片扫描、AI、大型数据集以及大量高性能计较资源的融合发展。

然而,当前计较病理学的发展尚未反映出自然言语在病理学中的重要作用,自然言语是解锁丰富多样的人类医学知识积累滥觞的钥匙、模型开发的监督信号以及促进强大 AI 模型与最终用户之间直观交互的统一媒介。

在计较病理学范畴,一些研讨在选定的诊疗和检索任务中表现出良好的零样本性能,而其他研讨也尝试了专门用于生物医学视觉问答或字幕的模型。然而,对于病理学家、使用病理图象数据的研讨职员或病理学受训者来说,这些模型尚未准备好充当交互式伴侣,无法遵循不同的指令,用自然言语连贯准确地回答复杂的开放式课题。

随着大型言语模型 (LLM) 的兴起,多模态大型言语模型 (MLLM) 和更广泛的生成式人工智能范畴的快速发展有望为计较病理学开辟一个新的范畴,除了强大的视觉处理能力外,它还强调自然言语和人机交互是 AI 模型设计和用户体验的关键组成部分。

人类病理学的多模态生成 AI Copilot

在此,研讨职员开发了 PathChat,这是一种用于人类病理学的多模态生成式 AI Copilot,由自定义的、经过微调的 MLLM 提供支持。

为了构建一个可以对视觉和自然言语输入举行推理的 MLLM,从一款最先进的 (SOTA) 纯视觉编码器 UNI 开始,使用自监督学习对来自 10 万多张切片的超过 1 亿个组织学图象块举行了预训练。使用 118 万个病理图象字幕对对 UNI 编码器举行进一步的视觉言语预训练,以使其图象表示空间与病理文本的表示空间对齐。

随后,生成的视觉编码器通过多模态投影仪模块连接到具有 130 亿个参数的预训练 Llama 2 LLM,以形成完整的 MLLM 架构。MLLM 最终通过超过 45 万条指令(包括 999,202 个问答轮次)的精选数据集举行微调,以构建 PathChat,它可以理解病理图象和文本并响应复杂的病理相关查询。

登Nature,超越GPT-4V,MIT、哈佛开发人类病理学多模态AI「副驾驶」

图示:指令遵循数据集管理和 PathChat 概述。(滥觞:论文)

规模更小、成本更低

研讨展示了 PathChat 在各种应用中的功能,包括分析来自不同器官部位和实践的病理病例。

研讨职员创建了 PathQABench,这是一个高质量的专家策划的基准,旨在评价与解剖病理学实践相关的各种能力,包括组织学显微图象的形态学检查、根据组织学和临床背景举行诊疗、评价肿瘤等级和分化、建议进一步举行 IHC/分子检测,以及了解潜在疾病的风险因素、预后和治疗。

登Nature,超越GPT-4V,MIT、哈佛开发人类病理学多模态AI「副驾驶」

图示:PathChat 的多项选择评价。(滥觞:论文)

通过多项选择式诊疗课题以及开放式课题和人类专家评价的组合来评价这些技能。在这两种评价设置中,PathChat 与目前同类最佳的商业解决方案 GPT-4V(可能比 PathChat 规模更大、成本更高)相比毫不逊色,而且在诊疗准确性和响应质量方面也大大优于公开测试的 MLLM。PathChat 规模明显更小且服务成本更低。

登Nature,超越GPT-4V,MIT、哈佛开发人类病理学多模态AI「副驾驶」

图示:开放式课题回答的表现。(滥觞:论文)

此外,还证明了对交互式多轮对话的支持可能使 PathChat 能够处理其他用例,例如复杂的诊疗检查。

PathChat 可以分析和描述组织学图象中显著的形态细节,并回答需要病理学和一般生物医学背景知识的课题。

登Nature,超越GPT-4V,MIT、哈佛开发人类病理学多模态AI「副驾驶」

图示:探索 PathChat 的其他用例。(滥觞:论文)

未来进一步增强 PathChat 功能

研讨职员希望随着技术的成熟,PathChat 能够在病理学教育、研讨以及人机交互临床决策方面找到有影响力的应用。

未来的研讨可能会通过增加对输入整个千兆像素 WSI 或多个 WSI 的支持,来进一步增强 PathChat 和基于 MLLM 的 AI 帮忙的功能。

此外,由于这些模型是在回顾性收集的大规模数据集上举行训练的,这些数据集不可避免地包含过时的信息,因此它们可能反映的是「过去的科学共识」,而不是今天的科学共识。

最后,为了让这些工具对病理学家和研讨职员更有用,可以将类似 PathChat 的 AI 帮忙与数字切片查看器或电子健康记录等工具集成。

注:封面来自网络

给TA打赏
共{{data.count}}人
人已打赏
理论

「新生」古生物份子,AI解决抗生素耐药性,复旦、宾大合作团队两篇论文登Cell和Nature子刊

2024-6-19 11:56:00

理论

涵盖文本、定位和支解工作,智源、港中文联合提出首个多功能3D医学多模态大模型

2024-6-21 18:08:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索