编辑 | 绿萝
10 月 24 日,《Nature》发布了一篇题为《An AI revolution is brewing in medicine. What will it look like?》的新闻专稿。
文章指出 AI 模型应用于调理的当前局限性,新兴的通才模型可以克服第一代机器进修对象在临床利用中的一些局限性。为了解决医学人工智能对象的一些局限性,研讨人员一直在探索具有更广泛功能的医学人工智能。并介绍了一些大型科技公司在调理成像的基本模型。
Jordan Perchik 在美国阿拉巴马大学伯明翰分校(The University of Alabama at Birmingham,UAB )开始了他的放射学住院医师实习生涯,当时正值他所说的该领域的「人工智能恐慌」高峰期。
那时,计算机科学家 Geoffrey Hinton 宣称,人们应该停止放射科大夫培训,因为机器进修对象很快就会取代他们。被称为 AI 教父的 Hinton 预测,这些系统很快将能够比人类更好地读取和解释医学扫描和 X 射线。随后放射学项目的申请量大幅下降。Perchik 说:「人们担心,他们即将完成住院医师实习却找不到工作。」
Hinton 说得有道理。基于人工智能的对象越来越多地成为调理保健的一部分;超过 500 种已获得 FDA 授权用于医药。大多数与医学成像有关——用于增强图象、测量异常或标志测试结果以从事后续检查。
但即使在 Hinton 的预测七年后,放射科大夫的需求仍然非常旺盛。大多数临床大夫似乎对这些技术的性能并不感兴趣。
调查显示,尽管许多大夫都知道临床人工智能对象,但只有一小部分(10% 到 30% 之间)真正利用过它们。人们的态度从谨慎乐观到完全缺乏信任不等。「一些放射科大夫怀疑人工智能应用的质量和安全性,」荷兰乌得勒支大学医学中心调理创新实施专家 Charisma Hehakaya 说。2019 年,她所在的团队采访了荷兰的二十多位临床大夫和医院管理人员,询问他们对人工智能对象的看法。她说,由于这种怀疑,最新的法子有时会被放弃。
即使人工智能对象实现了其设计目的,仍不清楚这是否会转化为对患者更好的护理。「这必要更强有力的分析,」Perchik 说。
但人们对一种有时被称为「通用调理人工智能」的法子确实越来越兴奋。这些是在海量数据集上训练的模型,很像为 ChatGPT 和其他人工智能聊天机器人提供支持的模型。在摄取大量医学图象和文本后,这些模型可以适应许多任务。虽然目前批准的对象具有特定功能,例如在计算机断层扫描 (CT) 胸部扫描中检测肺结节,但这些通才模型的作用更像是大夫,评估扫描中的每个异常并将其同化为类似诊疗的东西。
通才调理人工智能(GMAI)模型管道概述。(来源:Nature)
尽管人工智能爱好者现在倾向于回避有关机器取代大夫的大胆主张,但许多人表示,这些模型可以克服调理人工智能当前的一些局限性,并且有一天它们大概在某些情况下超越大夫。「对我来说,真正的目标是让人工智能帮助我们做人类不太擅长的事情,」位于阿拉巴马州伯明翰的美国放射学数据科学研讨所首席调理官、放射科大夫 Bibb Allen 说道 。
但在这些最新对象用于现实世界的临床护理之前,还有很长的路要走。
目前的限制
医学人工智能对象可以为从业者提供支持,例如快速从事扫描并标志大夫大概想要立即查看的潜在问题。此类对象有时效果很好。Perchik 记得有一次,人工智能分诊为出现呼吸急促的人标志了胸部 CT 扫描。当时是凌晨 3 点,正值夜班。他优先考虑了扫描,并同意人工智能的评估,即扫描结果显示肺栓塞,这是一种大概致命的疾病,必要立即治疗。如果没有标志,扫描大概要到当天晚些时候才会被评估。
但如果人工智能犯了错误,大概会产生相反的效果。Perchik 说,他最近发现了一例人工智能未能标志的肺栓塞病例。他决定采取额外的审查步骤,这证实了他的评估,但减慢了他的工作速度。「如果我决定相信人工智能并继续前进,那大概就不会被诊疗出来。」
斯坦福大学医学和影像人工智能中心主任、放射科大夫 Curtis Langlotz 表示,许多已获得批准的设备不一定符合大夫的需求。早期的人工智能调理对象是根据影像数据的可用性而开发的,因此一些应用程序是针对常见且容易发现的事物构建的。Langlotz 说,「我不必要帮助检测肺炎」或骨折。即便如此,仍有多种对象可以帮助大夫从事这些诊疗。
另一个问题是,这些对象往往专注于特定任务,而不是全面解释医学检查——观察图象中大概相关的所有内容,考虑到以前的结果和人的临床病史。哈佛医学院从事生物医学人工智能研讨的计算机科学家 Pranav Rajpurkar 表示:「虽然专注于检测几种疾病有一定价值,但它并不能反映放射科大夫的真实认知工作。」
伦敦 Google Health 的临床研讨科学家 Alan Karthikesalingam 表示,解决方案通常是添加更多人工智能驱动的对象,但这也给调理保健带来了挑战。考虑一个人从事常规乳房 X 光检查。技术人员大概会得到人工智能对象的帮助来从事乳腺癌筛查。如果发现异常,同一个人大概必要从事磁共振成像(MRI)扫描来确认诊疗,为此大概必要一个单独的人工智能设备。如果诊疗得到证实,病变将通过手术切除,并且大概还有另一个人工智能系统来协助病理学。
「如果你将其扩展到卫生系统的水平,你可以开始看到如何对设备本身做出大量选择,以及如何集成它们、购买它们、监控它们、部署它们,」他说。「它很快就会成为一种 IT soup。」
英国伯明翰大学研讨健康人工智能负责任创新的临床研讨员 Xiaoxuan Liu 表示,许多医院没有意识到监控人工智能性能和安全性所面临的挑战。她和她的同事发现了数千项医学影像研讨,将深度进修模型的诊疗性能与调理保健专业人员的诊疗性能从事了比较。对于该团队评估诊疗准确性的 69 项研讨,主要发现是大多数模型并未利用真正独立于用于训练模型的信息的数据集从事测试。这意味着这些研讨大概高估了模型的性能。
纳入 meta 分析的所有研讨的分层 ROC 曲线(25 项研讨)。(来源:Lancet Digit Health)
「现在,在该领域,人们都知道必须从事外部验证,」Liu 说。但是,她补充道,「世界上只有少数机构非常清楚这一点」。如果不测试模型的性能,特别是在利用模型的环境中,就不大概知道这些对象是否真正有帮助。
坚实的基本
为了解决医学人工智能对象的一些局限性,研讨人员一直在探索具有更广泛功能的医学人工智能。他们受到革命性大型语言模型的启发,例如 ChatGPT 背后的模型。
这些是一些科学家所谓的基本模型的例子。该术语由斯坦福大学的科学家于 2021 年创造,描述了利用一种称为自监督进修的法子在广泛的数据集(包括图象、文本和其他数据)上训练的模型。它们也称为基本模型或预训练模型,它们构成了以后可以适应执行不同任务的基本。
医院已经利用的大多数调理人工智能设备都是利用监督进修开发的。例如,用这种法子训练模型来识别肺炎,必要专家分析大量胸部 X 光片并将其标志为「肺炎」或「非肺炎」,以教会系统识别与疾病相关的模式。
基本模型不必要对大量图象从事注释,这是一个昂贵且耗时的过程。例如,对于 ChatGPT,利用大量文本来训练语言模型,该模型通过预测句子中的下一个单词来从事进修。同样,伦敦 Moorfields 眼科医院的眼科大夫 Pearse Keane 和他的同事开发了一个医学基本模型,利用 160 万张视网膜照片和扫描来进修如何预测图象中缺失的部分应该是什么样子。在模型在预训练过程中了解了视网膜的所有特征后,研讨人员引入了数百张标志图象,使其能够了解与视力相关的特定情况,例如糖尿病视网膜病变和青光眼。该系统在检测这些眼部疾病以及预测可通过眼睛血管微小变化检测到的全身性疾病(例如心脏病和帕金森病)方面比以前的模型更好。该模型尚未在临床环境中从事测试。
眼部诊疗。
Keane 说,基本模型特别适合眼科,因为几乎眼睛的每个部分都可以高分辨率成像。这些图象的巨大数据集可用于训练此类模型。「人工智能将改变调理保健,」他说。「眼科可以成为其他医学专业的榜样。」
Karthikesalingam 表示,基本模型是「一个非常灵活的框架」,并补充说,它们的特性似乎非常适合解决第一代调理人工智能对象的一些局限性。
大型科技公司已经在投资调理成像基本模型,这些模型利用多种图象类型(包括皮肤照片、视网膜扫描、X 射线和病理切片),并纳入电子健康记录和基因组数据。
6 月,谷歌研讨院的科学家发表了一篇论文,描述了一种他们称之为 REMEDIS(「具有自监督功能的稳健高效的医学成像」)的法子,与传统法子相比,该法子能够将诊疗准确率提高高达 11.5% 利用监督进修训练的人工智能对象。研讨发现,在未标志图象的大数据集上预训练模型后,只必要少量标志图象即可实现这些结果。「我们的主要见解是,REMEDIS 能够以非常有效的方式,通过很少的示例,进修如何对许多不同的医学图象中的许多不同的事物从事分类,」包括胸部 X 光、数字病理扫描和乳房 X 光检查,该论文的合著者 Karthikesalingam 说道。
REMEDIS 法子概述,用于开发强大而高效的医学成像 ML。(来源:Nature Biomedical Engineering)
接下来的一个月,谷歌研讨人员在预印本中描述了他们如何将该法子与该公司的医学大型语言模型 Med-PaLM 结合起来,该模型几乎可以像大夫一样回答一些开放式的医学问题。其成果是 Med-PaLM Multimodal,这是一个单一的人工智能系统,它不仅可以解释胸部 X 射线图象,还可以用自然语言起草一份调理报告。
Med-PaLM M 概述。(来源:arxiv.org)
微软还致力于将语言和视觉集成到单一的调理人工智能对象中。6 月,该公司的科学家推出了 LLaVA-Med(生物医学大型语言和视觉助手),它通过从 PubMed Central(一个可公开访问的生物医学文章数据库)中提取的图象和文本从事训练。「一旦你做到了这一点,那么你基本上就可以开始与图象从事对话,就像与 ChatGPT 对话一样,」Microsoft Health Futures 生物医学人工智能研讨负责人、计算机科学家 Hoifung Poon 说道。这种法子的挑战之一是它必要大量的文本-图象对。Poon 说,他和他的同事现在已经从 PubMed Central 收集了超过 4600 万对。
LLaVA-Med。(来源:arxiv.org)
随着这些模型接受越来越多的数据训练,一些科学家乐观地认为,他们大概能够识别人类无法识别的模式。Keane 提到了 Google 研讨人员 2018 年的一项研讨,该研讨描述了能够从视网膜图象中识别人的特征(例如年龄和性别)的 AI 模型。Keane 说,即使是经验丰富的眼科大夫也无法做到这一点。「因此,我们确实希望这些高维图象中嵌入了大量科学信息。」
Poon 表示,人工智能对象可以超越人类能力的一个例子是利用数字病理学来预测肿瘤对免疫疗法的反应。人们认为,肿瘤微环境——可以通过活检取样的癌性、非癌性和免疫细胞的环境——影响个体是否会对各种抗癌药物产生良好反应。「如果你能看到数以百万计已经接受过检查点抑制剂或其他免疫疗法的患者,你可以观察那些有特殊反应和无反应的患者,你就可以开始发现许多专家大概无法看到的模式。」Poon 说。
他警告说,尽管人工智能设备的诊疗潜力令人兴奋,但这些对象的成功门槛也很高。人工智能的其他调理用途,例如将参与者与临床试验相匹配,大概会产生更直接的影响。
Karthikesalingam 还指出,即使谷歌的医学成像人工智能取得了最好的结果,仍然无法与人类相媲美。「人类放射科大夫的 X 射线报告仍然被认为明显优于最先进的多模式全科调理系统,」他说。Karthikesalingam 补充道,尽管基本模型似乎特别适合扩大调理人工智能对象的应用,但要证明它们可以安全地用于临床护理,还有很长的路要走。「虽然我们想要大胆,但我们也认为负责任也非常重要。」
Perchik 坚信人工智能在放射学领域的作用将继续增强,但他认为人们必要接受培训来利用人工智能,而不是取代放射科大夫。2020 年,他为放射科大夫组织了免费的人工智能扫盲课程,该课程已在美国各地扩大到 25 个项目。「我们所做的很多工作都是揭开人工智能的神秘面纱,并管理炒作与人工智能的现实情况,」他说。
参考内容:https://www.nature.com/articles/d41586-023-03302-0