研究：AI 医疗诊断平均准确率 52.1%，与非专家医生相当

2025-04-21 07:07

大阪都会大学研究显示，生成式AI在医疗诊断中平均准确率达52.1%，与非专家医生相当，但专家医生仍领先15.8%。AI在皮肤科表现突出，泌尿科数据有限。研究认为AI可用于医学教育和资源有限地区。#AI医疗##医学诊断#

大阪都会大学医学研究生院 Hirotaka Takita 博士和 Daiju Ueda 副教授领导的研究小组近期发布一项系统性回顾和荟萃分析，深入评估了生成式人工智能（AI）在诊断医疗状况方面的表现，并将其与医生进行了对比。

研究团队筛选了总计 18371 项研究，最终确定 83 项进行详细分析。这些研究涉及多种生成式 AI 模型，包括 GPT-4、Llama3 70B、Gemini 1.5 Pro 和 Claude 3 Sonnet 等，覆盖了多个医疗领域。其中，GPT-4 是研究最多的模型。结果显示，这些 AI 模型的平均诊断准确率为 52.1%（95% 置信区间：47.0% - 57.1%）。部分模型的诊断准确率与非专家医生相当，两者之间没有显著统计差异（准确率差异：0.6% [95% 置信区间：-14.5% 至 15.7%]，p=0.93）。然而，专家医生的表现仍优于 AI，其准确率差距为 15.8%（95% 置信区间：4.4% - 27.1%，p=0.007）。尽管如此，随着技术的不断进步，这一差距可能会逐渐缩小。

研究还发现，AI 在大多数医学专科的表现较为一致，但有两个例外：皮肤科和泌尿科。在皮肤科，AI 的表现更为出色，这可能是因为该领域涉及模式识别，而这是 AI 的强项。但皮肤科同样需要复杂的推理和针对患者的决策，因此 AI 的优势并不能完全反映其在该领域的实际应用价值。对于泌尿科，研究结果仅基于一项大型研究，因此其结论的普适性受到一定限制。

“这项研究表明，生成式 AI 的诊断能力与非专家医生相当。它可以用于医学教育，支持非专家医生，并在医疗资源有限的地区协助诊断。”Hirotaka Takita 博士表示，“未来的研究需要在更复杂的临床场景中进行评估，使用实际病历进行性能评估，提高 AI 决策的透明度，并在不同患者群体中进行验证，以进一步证实 AI 的能力。”

AI在线注意到，除了诊断领域，该研究还强调了生成式 AI 在医学教育中的潜力。研究人员指出：“当前生成式 AI 模型在非专家环境下的表现与医生相当，这为将 AI 整合到医学培训中提供了机会。” AI 可以用于模拟真实病例，帮助医学生和受训者学习和评估他们的技能。

然而，研究也对这些模型的透明度和偏见提出了担忧。许多 AI 系统并未公开其训练数据的详细信息，这引发了关于其结果是否适用于所有人群的疑问。研究人员强调，“透明度确保了对模型知识、背景和局限性的理解”，并强调需要开发清晰、符合伦理且经过充分验证的 AI 应用。

目前，尽管生成式 AI 具有巨大潜力，但在涉及详细患者信息的复杂病例中仍面临挑战。医生们是否需要担心失去工作？目前尚难定论，但在诊断领域，这种情况是有可能发生的。

交大O1医疗探索：延长AI思考时间，解锁复杂推理诊断

编辑 | ScienceAI当医生面对复杂病例时，往往需要反复思考、权衡多种可能性，才能得出准确诊断。以鉴别诊断为例，它要求医生生成可能的诊断列表，并通过评估临床发现，逐步排除不符合条件的选项。如今，AI 也学会了这种「深思熟虑」的诊断方式。

1/15/2025 3:39:00 PM

ScienceAI

多中心医学图像分析模型，VFMGL框架破解数据孤岛难题，93.4% Dice系数的卓越表现

编辑丨&在众多中下游任务中，收到广泛而多样的数据集训练的基础模型表现出的强大性能，在医疗领域表现却不甚得人心。受到到数据量、异质性和隐私问题等问题的严重阻碍，基础模型得不到更进一步的发展。桂林航空航天大学联合江门市中心医院等推出了 Vision Foundation Model General Lightweight（VFMGL）框架，以促进各种医疗任务的专家临床模型的去中心化构建。

3/5/2025 5:48:00 PM

ScienceAI

调查：超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告，企业在人工智能（AI）领域的投资高达2.5亿美元，尽管在证明投资回报率(ROI)方面面临挑战。商业领袖们正努力提高生产力，但新技术的集成往往需要重构现有应用、更新流程并激励员工学习，以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查，以揭示 AI 采用的现实情况，探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。

3/18/2025 10:02:00 AM

AI在线

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna 纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验 Figma 推 AI 革命：开发智能应用制作器与网站创建工具扣子空间Coze Space正式开启内测支持 MCP 扩展集成腾讯混元3D AI引擎2.5即将揭晓，3D生成技术再升级

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora 3D Anthropic AI for Science AI设计机器学习 GPU 开发者 AI视频场景华为预测百度人形机器人伟达苹果 Transformer 深度学习模态 xAI 字节跳动 Claude 大语言模型搜索驾驶文本神器推荐具身智能 Copilot LLaMA 算力视频生成安全干货合集视觉应用大型语言模型科技亚马逊特斯拉 AGI 训练 2024

顶部

研究：AI 医疗诊断平均准确率 52.1%，与非专家医生相当

相关资讯

交大O1医疗探索：延长AI思考时间，解锁复杂推理诊断

多中心医学图像分析模型，VFMGL框架破解数据孤岛难题，93.4% Dice系数的卓越表现

调查：超72% 的企业选择 AI 工具时最看重易用性