新研究发现 OpenAI 的 o1-preview AI 模型在诊断棘手医疗案例方面优于医生

作者：故渊

2024-12-25 02:10

由哈佛医学院和斯坦福大学组成的科研团队，在医学诊断领域深入评估 OpenAI 的 o1-preview 模型，发现其比人类医生更擅长诊断棘手的医疗案例。

由哈佛医学院和斯坦福大学组成的科研团队，在医学诊断领域深入评估 OpenAI 的 o1-preview 模型，发现其比人类医生更擅长诊断棘手的医疗案例。

根据研究报告，o1-preview 正确诊断了 78.3% 的测试案例，在 70 个特定案例的对比测试中，准确率更是高达 88.6%，显著优于其前身 GPT-4 的 72.9%。

新研究发现 OpenAI 的 o1-preview AI 模型在诊断棘手医疗案例方面优于医生

使用医学推理质量评估标准量表 R-IDEA，o1-preview 在 80 个案例中取得了 78 个满分。相比之下，经验丰富的医生仅在 28 个案例中获得满分，住院医生则仅为 16 例。

在 25 位专家设计的复杂案例中，o1-preview 得分高达 86%，是使用 GPT-4 的医生（41%）和使用传统工具的医生（34%）的两倍多。

研究人员承认该测试存在局限性，部分测试案例可能包含在 o1-preview 的训练数据中，且测试主要集中于系统单独工作，并未充分考虑其与人类医生协同工作的场景；此外 o1-preview 建议的诊断测试成本高昂，在实际应用中存在局限性。

AI在线附上参考地址

Superhuman performance of a large language model on the reasoning tasks of a physician
OpenAI's o1-preview outperforms doctors in diagnosing tricky medical cases, study finds

相关标签：

AI OpenAI 医疗

相关资讯

创新工场李开复：医疗赛道挤泡沫，迎来“医疗＋X”时代

创新工场李开复：医疗赛道挤泡沫，迎来“医疗＋X”时代

2022年即将过半，黑天鹅仍旧满天飞，一二级市场跌宕起伏。新冠催化下的医疗科技赛道，从火热到冷静，逐渐走入挤泡沫的阶段。在这之中，哪些热点将回归平静，又有哪些趋势能够穿越周期？5月11日，在创新工场举办的医疗创新趋势分享会上，创新工场董事长兼CEO李开复博士表示，在科技交叉越来越频繁的当下，AI和自动化已经成为了底层的“数字基建”，跟各领域的技术交叉带来了越来越多的创新突破。而传统的医疗大健康赛道也在两大平台技术的推动下迎来创新拐点，迎来“医疗＋X”的落地爆发时代。“在新冠疫情的助推下，以往的‘慢热’的生命科学进入

数坤科技6周年公开信：关注医疗健康产业的全面数字化和智能化

数坤科技6周年公开信：关注医疗健康产业的全面数字化和智能化

6月20日，数坤科技创始人、董事长毛新生发布公司成立6周年公开信。他表示，身为一家中国科技企业，数坤必须要用原创科技、原创产品、原创精神去创新技术，打造具有客户无法拒绝的价值的产品，推动行业的进步，在全球同行中领先。六年努力开花结果，现在的数坤科技已成为全球唯一一家在心、脑、胸三个关键治疗领域同时拥有NMPA三类证和CE认证的行业领跑者。伴随着ChatGPT的到来，AI技术不断跃迁，人工智能与各种应用场景持续深度融合，场景创新能力不断提升，可以预见，在不远的未来，医疗健康的数字化和智能化会以劈山倒海之势奔涌而来。以

支付宝AI新进展：发布多模态医疗大模型，携手20家机构发起AI医疗共建计划

支付宝AI新进展：发布多模态医疗大模型，携手20家机构发起AI医疗共建计划

7月5日，在2024世界人工智能大会“可信大模型论坛”上，支付宝公布了其AI技术在医疗领域布局的最新进展：发布多模态医疗大模型，同时，全新推出包括医疗可信一体机、可信云等多款数智化解决方案。现场，支付宝还与人民卫生出版社、北京大学医学部、浙江省卫生健康委等20家机构，联合发起AI医疗共建计划，共同探索AI数智技术底座与创新应用服务。支付宝多模态医疗大模型亮相经过半年多测试打磨，支付宝医疗大模型正式亮相，这也是国内首批多模态医疗大模型之一。蚂蚁集团大模型应用部总经理顾进杰介绍了背后的技术研发。蚂蚁百灵大模型已具备能“

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动 SK 海力士宣布参展 CES 2025，将展示 122TB 企业级固态硬盘等产品阿里云与黑芝麻智能完成大模型车载芯片级适配突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元清华大学推 AutoDroid-V2：AI 离线在线协同，优化移动端自动化 GUI 控制斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手啥玩意值8499元？马斯克在线打call，国产AI威震天秒售罄

标签云