新研究发现 OpenAI 的 o1-preview AI 模型在诊断棘手医疗案例方面优于医生

由哈佛医学院和斯坦福大学组成的科研团队,在医学诊断领域深入评估 OpenAI 的 o1-preview 模型,发现其比人类医生更擅长诊断棘手的医疗案例。

由哈佛医学院和斯坦福大学组成的科研团队,在医学诊断领域深入评估 OpenAI 的 o1-preview 模型,发现其比人类医生更擅长诊断棘手的医疗案例。

根据研究报告,o1-preview 正确诊断了 78.3% 的测试案例,在 70 个特定案例的对比测试中,准确率更是高达 88.6%,显著优于其前身 GPT-4 的 72.9%。

新研究发现 OpenAI 的 o1-preview AI 模型在诊断棘手医疗案例方面优于医生

使用医学推理质量评估标准量表 R-IDEA,o1-preview 在 80 个案例中取得了 78 个满分。相比之下,经验丰富的医生仅在 28 个案例中获得满分,住院医生则仅为 16 例。

在 25 位专家设计的复杂案例中,o1-preview 得分高达 86%,是使用 GPT-4 的医生(41%)和使用传统工具的医生(34%)的两倍多。

研究人员承认该测试存在局限性,部分测试案例可能包含在 o1-preview 的训练数据中,且测试主要集中于系统单独工作,并未充分考虑其与人类医生协同工作的场景;此外 o1-preview 建议的诊断测试成本高昂,在实际应用中存在局限性。

AI在线附上参考地址

  • Superhuman performance of a large language model on the reasoning tasks of a physician

  • OpenAI's o1-preview outperforms doctors in diagnosing tricky medical cases, study finds

相关资讯

创新工场李开复:医疗赛道挤泡沫,迎来“医疗+X”时代

2022年即将过半,黑天鹅仍旧满天飞,一二级市场跌宕起伏。新冠催化下的医疗科技赛道,从火热到冷静,逐渐走入挤泡沫的阶段。在这之中,哪些热点将回归平静,又有哪些趋势能够穿越周期?5月11日,在创新工场举办的医疗创新趋势分享会上,创新工场董事长兼CEO李开复博士表示,在科技交叉越来越频繁的当下,AI和自动化已经成为了底层的“数字基建”,跟各领域的技术交叉带来了越来越多的创新突破。而传统的医疗大健康赛道也在两大平台技术的推动下迎来创新拐点,迎来“医疗+X”的落地爆发时代。“在新冠疫情的助推下,以往的‘慢热’的生命科学进入

数坤科技6周年公开信:关注医疗健康产业的全面数字化和智能化

6月20日,数坤科技创始人、董事长毛新生发布公司成立6周年公开信。他表示,身为一家中国科技企业,数坤必须要用原创科技、原创产品、原创精神去创新技术,打造具有客户无法拒绝的价值的产品,推动行业的进步,在全球同行中领先。六年努力开花结果,现在的数坤科技已成为全球唯一一家在心、脑、胸三个关键治疗领域同时拥有NMPA三类证和CE认证的行业领跑者。伴随着ChatGPT的到来,AI技术不断跃迁,人工智能与各种应用场景持续深度融合,场景创新能力不断提升,可以预见,在不远的未来,医疗健康的数字化和智能化会以劈山倒海之势奔涌而来。以

支付宝AI新进展:发布多模态医疗大模型,携手20家机构发起AI医疗共建计划

7月5日,在2024世界人工智能大会“可信大模型论坛”上,支付宝公布了其AI技术在医疗领域布局的最新进展:发布多模态医疗大模型,同时,全新推出包括医疗可信一体机、可信云等多款数智化解决方案。现场,支付宝还与人民卫生出版社、北京大学医学部、浙江省卫生健康委等20家机构,联合发起AI医疗共建计划,共同探索AI数智技术底座与创新应用服务。支付宝多模态医疗大模型亮相经过半年多测试打磨,支付宝医疗大模型正式亮相,这也是国内首批多模态医疗大模型之一。蚂蚁集团大模型应用部总经理顾进杰介绍了背后的技术研发。蚂蚁百灵大模型已具备能“