AI华佗？港中大、深圳大数据研究院提出医疗推理大模型HuatuoGPT-o1

编辑 | 白菜叶OpenAI o1 的突破凸显了通过增强推理能力来提高自然语言大模型（LLM）的应用潜力。然而，大多数推理研究都集中在数学任务上，而医学等领域尚未得到充分探索。医学领域虽然不同于数学，但鉴于医疗保健的高标准，它也需要强大的推理能力来提供可靠的答案。

编辑 | 白菜叶

OpenAI o1 的突破凸显了通过增强推理能力来提高自然语言大模型（LLM）的应用潜力。然而，大多数推理研究都集中在数学任务上，而医学等领域尚未得到充分探索。

医学领域虽然不同于数学，但鉴于医疗保健的高标准，它也需要强大的推理能力来提供可靠的答案。然而，与数学不同，验证医学推理具有挑战性。

为了解决这个问题，香港中文大学，深圳市大数据研究院的研究人员提出了可验证的医学问题，使用医学验证器来检查模型输出的正确性。

同时，该团队推出了 HuatuoGPT-o1，这是一款能够进行复杂推理的医学 LLM，仅使用 40K 个可验证问题，其表现就优于医学专用基线。

该研究以「HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs」为题，于 2024 年 12 月 25 日发布在 arXiv 预印平台。

类似 o1 的方法在医学等专业领域的应用仍未得到充分探索。医疗任务通常涉及复杂的推理。

在现实世界的医疗诊断或决策中，医生往往需要仔细斟酌。这一关乎生命的重要领域要求缜密的思考，确保得出更为可靠的结论。

并且，医疗领域具有独特的优势：与一般领域相比，医疗领域的范围通常较窄，且更易于验证。此外，医疗推理与金融、法律、教育和安全等领域的实际应用密切相关，使得该领域的进展能够轻松地迁移到其他领域。

HuatuoGPT-o1

尽管存在这些优势，医学推理中的一个关键挑战在于验证其思维过程，这一过程通常缺乏清晰的步骤。受数学问题通过其结果进行验证的启发，研究人员从具有挑战性的闭卷医学考试题目中重构了 40,000 个可验证的医学问题。

这些可验证问题的特点是开放式且具有唯一的客观真实答案，使得大型语言模型（LLM）验证器能够检查解决方案的正确性。

图示：利用具有挑战性的闭卷考试题目构建可验证医学问题；验证器将模型的答案与真实答案进行对比检查。（来源：论文）

这为推进医学复杂推理提供了一种方法：

第一阶段：学习复杂推理

该团队通过基于验证器反馈（正确或错误）的策略搜索构建复杂推理轨迹。大型语言模型（LLM）首先初始化一个思维链（CoT）。如果验证器拒绝当前的思维链，模型将通过应用从回溯、探索新路径、验证和修正中采样的策略来扩展思维链，直到提供正确答案。成功的推理轨迹随后用于微调大型语言模型，使其能够发展出体现迭代反思的复杂推理能力。

第二阶段：通过强化学习增强复杂推理

在掌握复杂推理技能后，强化学习（RL）进一步优化这一能力。具体而言，验证器提供的稀疏奖励通过近端策略优化（PPO）算法引导模型进行自我改进。

通过这种方法，研究人员提出了 HuatuoGPT-o1，这是一种能够生成长思维链（CoT）以识别错误、尝试不同策略并优化答案的医学大型语言模型（LLM）。

HuatuoGPT-o1（仅使用 40K 数据点）在 8B 模型上实现了医学基准测试 8.5 分的提升。此外，70B 版本的 HuatuoGPT-o1 在多个医学基准测试中优于其他开源通用及医学专用 LLM。