OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

编辑 | 紫罗大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力，突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出，成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。虽然 o1 在一般任务中表现良好，但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内，例如知识、推理或安全，这使得在复杂的医学任务中对这些模型进行全面评估变得复杂。来自加州大学圣克鲁斯分校、爱丁堡大学和美国国立卫生研究院的研究人员评估了 OpenAI 的 o1 模型在医

编辑 | 紫罗

大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力，突破了我们在学习和认知方面的知识界限。

最新模型 OpenAI 的 o1 脱颖而出，成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。

虽然 o1 在一般任务中表现良好，但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内，例如知识、推理或安全，这使得在复杂的医学任务中对这些模型进行全面评估变得复杂。

来自加州大学圣克鲁斯分校、爱丁堡大学和美国国立卫生研究院的研究人员评估了 OpenAI 的 o1 模型在医学任务中的表现，评估了 37 个医学数据集（包括两个新的 QA 基准）的理解、推理和多语言性。

分析表明，LLM 的推理能力增强可能会有利于其理解各种医疗指令和推理复杂临床场景的能力。值得注意的是，在 19 个数据集和两个新创建的复杂 QA 场景中，o1 的准确率平均比之前的 GPT-4 高出 6.2% 和 6.6%。

相关研究以《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》为题，发布在预印平台 arXiv 上。

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

论文链接：https://arxiv.org/abs/2409.15277

LLM 通过下一个 token 预测和指令微调在语言理解任务中取得了显著进展。然而，它们经常在复杂的逻辑推理任务中挣扎。

为了克服这个问题，研究人员引入了 CoT 提示，引导模型模拟人类的推理过程。OpenAI 的 o1 模型经过大量 CoT 数据和强化学习训练，旨在增强推理能力。像 GPT-4 这样的 LLM 在医学领域表现出色，但领域特定的微调对于可靠的临床应用是必要的。

该研究调查了 o1 在临床应用方面的潜力，显示了理解、推理和多语言能力的提高。

评估流程侧重于模型能力的三个关键方面：理解、推理和多语言性，以满足临床需求。在 37 个数据集中进行测试，涵盖概念识别、总结、问答和临床决策等任务。三种提示策略——直接提示、思维链和少量学习——指导模型。

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

图示：评估流程。（来源：论文）

准确度、F1 分数、BLEU、ROUGE、AlignScore 和 Mauve 等指标通过将生成的响应与真实数据进行比较来评估模型性能。这些指标衡量准确度、响应相似性、事实一致性以及与人工书写文本的一致性，确保全面评估。

实验将 o1 与 GPT-3.5、GPT-4、MEDITRON-70B 和 Llama3-8B 等模型在医疗数据集中进行了比较。

o1 在概念识别、总结和医学计算等临床任务中表现出色，优于 GPT-4 和 GPT-3.5。它在 NEJMQA 和 LancetQA 等基准上实现了显著的准确度提升，分别超过 GPT-4 8.9% 和 27.1%。

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

o1 在 BC4Chem 等任务中也取得了更高的 F1 和准确度分数，突显了其卓越的医学知识和推理能力，并将其定位为现实世界临床应用的有前途的工具。

o1 模型在通用 NLP 和医学领域取得了重大进展，但也存在一些缺点。其解码时间较长（是 GPT-4 的两倍多，是 GPT-3.5 的九倍），可能会导致复杂任务的延迟。

此外，o1 在不同任务中的表现不一致，在概念识别等简单任务中表现不佳。BLEU 和 ROUGE 等传统指标可能无法充分评估其输出，尤其是在专业医学领域。

未来的评估需要改进指标和提示技术，以更好地捕捉其能力并减轻幻觉和事实准确性等限制。

参考内容：https://www.marktechpost.com/2024/09/26/assessing-openais-o1-llm-in-medicine-understanding-enhanced-reasoning-in-clinical-contexts/

{{userData.name}}已认证

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

中国科学院物理学家利用机器学习揭示原子核壳演化

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等

关于LLM-as-a-judge范式，终于有综述讲明白了

ChatGPT遇到这些人名开始自闭，OpenAI回应了

平安人寿ChatBI：大模型智能化报表的深度实践

李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则