编辑 | 紫罗
大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力,突破了我们在学习和认知方面的知识界限。
最新模型 OpenAI 的 o1 脱颖而出,成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。
虽然 o1 在一般任务中表现良好,但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内,例如知识、推理或安全,这使得在复杂的医学任务中对这些模型进行全面评估变得复杂。
来自加州大学圣克鲁斯分校、爱丁堡大学和美国国立卫生研究院的研究人员评估了 OpenAI 的 o1 模型在医学任务中的表现,评估了 37 个医学数据集(包括两个新的 QA 基准)的理解、推理和多语言性。
分析表明,LLM 的推理能力增强可能会有利于其理解各种医疗指令和推理复杂临床场景的能力。值得注意的是,在 19 个数据集和两个新创建的复杂 QA 场景中,o1 的准确率平均比之前的 GPT-4 高出 6.2% 和 6.6%。
相关研究以《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》为题,发布在预印平台 arXiv 上。
论文链接:https://arxiv.org/abs/2409.15277
LLM 通过下一个 token 预测和指令微调在语言理解任务中取得了显著进展。然而,它们经常在复杂的逻辑推理任务中挣扎。
为了克服这个问题,研究人员引入了 CoT 提示,引导模型模拟人类的推理过程。OpenAI 的 o1 模型经过大量 CoT 数据和强化学习训练,旨在增强推理能力。像 GPT-4 这样的 LLM 在医学领域表现出色,但领域特定的微调对于可靠的临床应用是必要的。
该研究调查了 o1 在临床应用方面的潜力,显示了理解、推理和多语言能力的提高。
评估流程侧重于模型能力的三个关键方面:理解、推理和多语言性,以满足临床需求。在 37 个数据集中进行测试,涵盖概念识别、总结、问答和临床决策等任务。三种提示策略——直接提示、思维链和少量学习——指导模型。
图示:评估流程。(来源:论文)
准确度、F1 分数、BLEU、ROUGE、AlignScore 和 Mauve 等指标通过将生成的响应与真实数据进行比较来评估模型性能。这些指标衡量准确度、响应相似性、事实一致性以及与人工书写文本的一致性,确保全面评估。
实验将 o1 与 GPT-3.5、GPT-4、MEDITRON-70B 和 Llama3-8B 等模型在医疗数据集中进行了比较。
o1 在概念识别、总结和医学计算等临床任务中表现出色,优于 GPT-4 和 GPT-3.5。它在 NEJMQA 和 LancetQA 等基准上实现了显著的准确度提升,分别超过 GPT-4 8.9% 和 27.1%。
o1 在 BC4Chem 等任务中也取得了更高的 F1 和准确度分数,突显了其卓越的医学知识和推理能力,并将其定位为现实世界临床应用的有前途的工具。
o1 模型在通用 NLP 和医学领域取得了重大进展,但也存在一些缺点。其解码时间较长(是 GPT-4 的两倍多,是 GPT-3.5 的九倍),可能会导致复杂任务的延迟。
此外,o1 在不同任务中的表现不一致,在概念识别等简单任务中表现不佳。BLEU 和 ROUGE 等传统指标可能无法充分评估其输出,尤其是在专业医学领域。
未来的评估需要改进指标和提示技术,以更好地捕捉其能力并减轻幻觉和事实准确性等限制。
参考内容:https://www.marktechpost.com/2024/09/26/assessing-openais-o1-llm-in-medicine-understanding-enhanced-reasoning-in-clinical-contexts/