在24项场景中优于人类大夫，Google团队开发鉴于自博弈的诊疗对话大模型

编辑 | 白菜叶医学的核心在于医患对话，熟练的病史采集为准确的诊疗、有效的管理和持久的信任铺平了道路。能够举行诊疗对话的人工智能（AI）体系可以提高护理的可及性、一致性和质量。然而，学习临床大夫的专业知识是一个巨大的挑战。Google Research 和 Google DeepMind 的 AI 团队开发了 AMIE（Articulate Medical Intelligence Explorer），这是一种鉴于大型语言模型（LLM）的人工智能体系，针对诊疗对话举行了优化。AMIE 使用一种新颖的鉴于自博弈（se

编辑 | 白菜叶

医学的核心在于医患对话，熟练的病史采集为准确的诊疗、有效的管理和持久的信任铺平了道路。能够举行诊疗对话的人工智能（AI）体系可以提高护理的可及性、一致性和质量。然而，学习临床大夫的专业知识是一个巨大的挑战。

Google Research 和 Google DeepMind 的 AI 团队开发了 AMIE（Articulate Medical Intelligence Explorer），这是一种鉴于大型语言模型（LLM）的人工智能体系，针对诊疗对话举行了优化。AMIE 使用一种新颖的鉴于自博弈（self-play）的模拟环境，具有自动反馈机制，可在不同的疾病状况、专业和背景下扩展学习。

「据我们所知，这是第一次针对诊疗对话和获取临床病史举行最佳计划的对话式人工智能体系。」 Google Health 的临床钻研科学家、论文的合著者 Alan Karthikesalingam 说道。

该钻研以「Towards Conversational Diagnostic AI」为题，于 2024 年 1 月 11 日发布在 arXiv 预印平台。

在24项场景中优于人类大夫，Google团队开发鉴于自博弈的诊疗对话大模型

论文链接：https://arxiv.org/abs/2401.05654

很少有人利用 LLM 举行医学钻研，探索这些体系是否可以模仿大夫获取个人病史并利用其做出诊疗的能力。哈佛医学院的内科大夫 Adam Rodman说，医学院的学生花了很多时间举行训练来做到这一点。

Google Health 的人工智能钻研科学家、论文的合著者 Vivek Natarajan 表示，开发人员面临的一个挑战是缺乏可用作训练数据的现实世界医疗对话。

为了应对这一挑战，钻研人员计划了一种让谈天机器人训练自己如何「对话」的方法。

在24项场景中优于人类大夫，Google团队开发鉴于自博弈的诊疗对话大模型

图示：AMIE 钻研概述。（来源：论文）

钻研人员利用现有的现实世界数据集（例如电子健康记录和转录的医疗对话）对基础 LLM 举行了第一轮微调。为了进一步训练模型，钻研人员要求 LLM 扮演得了特定病症的人，以及富有同理心的临床大夫，旨在了解该人的病史并计划潜在的诊疗。

为此，钻研人员计划了一个框架，用于评估具有临床意义的绩效轴，包括病史采集、诊疗准确性、管理推理、沟通技巧和同理心。该团队在一项随机、双盲交叉钻研中，以客观结构化临床检查（OSCE）的方式与经过验证的患者参与者举行鉴于文本的咨询，将 AMIE 的表现与初级保健大夫（PCP）的表现举行了比较。

在24项场景中优于人类大夫，Google团队开发鉴于自博弈的诊疗对话大模型

图示：随机钻研计划概述。（来源：论文）

该钻研包括来自加拿大、英国和印度临床提供者的 149 个病例场景、20 个与 AMIE 举行比较的 PCP，以及专科大夫和患者参与者的评估。

根据专科大夫的说法，AMIE 在 32 个轴中的 28 个轴上表现出了更高的诊疗准确性和卓越的性能，根据患者参与者的说法，AMIE 在 26 个轴中的 24 个轴上表现出了更高的诊疗准确性和卓越的性能。

通俗讲，AMIE 在 26 项对话质量标准中的 24 项上优于大夫，包括礼貌、解释病情和治疗、给人诚实的印象以及表达关心和承诺。

但是，「这绝不意味着语言模型在获取临床病史方面比大夫更好。」Karthikesalingam 说。他指出，钻研中的初级保健大夫可能不习惯通过鉴于文本的谈天与患者互动，这可能会影响他们的表现。

Karthikesalingam 表示，相比之下，LLM 有一个优势，那就是能够快速撰写冗长且结构精美的答案，使其能够始终如一地体贴而不会感到疲倦。

不过，该工具目前仍处于纯粹的实验阶段。它还没有在得了真正健康问题的人身上举行过测试——只在接受过描绘得了健康问题的人训练的演员身上举行过测试。「我们希望谨慎和谦虚地解释结果。」Karthikesalingam 说。

尽管谈天机器人距离临床护理还很远，但作者认为它最终可能在医疗保健民主化方面发挥作用。Rodman 说，这个工具可能会有所帮助，但它不应该取代病人与大夫的互动。「医学不仅仅是收集信息，它还关乎大夫与患者的关系。」他说。

该团队在论文里也注明了该工具的局限性，应谨慎使用。临床大夫仅限于不熟悉的同步文本谈天，这允许大规模的 LLM 与患者互动，但不能代表通常的临床实践。虽然在将 AMIE 转化为现实世界环境之前还需要进一步钻研，但结果代表了对话式诊疗 AI 的一个里程碑。

Karthikesalingam 表示，这项钻研的下一步是举行更详细的钻研，从而评估潜在的偏见，并确保该体系对不同人群是公平的。Google 团队也在钻研对临床医疗问题体系测试的道德要求。

新加坡国立大学（National University of Singapore）医学院的临床人工智能科学家 Daniel Ting 表示同意该观点，并表示，探究体系中的偏见对于确保算法不会惩罚那些在训练数据集中没有得到很好体现的种族群体至关重要。

Ting 说，谈天机器人用户的隐私也是需要考虑的一个重要方面。「对于目前许多商业大型语言模型平台，我们仍然不确定数据存储在哪里，以及它们如何分析数据。」他说。

{{userData.name}}已认证

在24项场景中优于人类大夫，Google团队开发鉴于自博弈的诊疗对话大模型

全球最长开源！元象开源大模型XVERSE-Long-256K，无条件免费商用！

上海人工智能实验室团队开发具有多核光纤单元扭转功能的AI启动投影断层扫描

MIT计算机科学家意外发现，量子纠缠会「突然消亡」

百度英伟达联合举办！全球规模最大智能体大赛开幕

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature

我有一个「赛博爱人」，拥有超长记忆，还能给足情绪价值

比尔・盖茨用 AI 对付蚊子，助力消灭疟疾

Karpathy狂赞AI代码神器Cursor，直言回不到3年前无辅助编码了，却被指「带货」

AI 行业风光背后：80% 项目会失败，5 大原因导致

新手必看！5 款 Flux 实用基础工作流（附资源包）