深圳大数据研究院与香港中文大学(深圳)的研究团队最近共同推出了HuatuoGPT-o1医疗级大型语言模型(LLM)。这款模型针对医疗领域复杂的推理设计,目的是提升医疗诊断和决策的可靠性。与以往偏重数学推理的LLM不同,HuatuoGPT-o1聚焦于医疗领域,通过模仿医生在日常工作中的严谨思考方式,为医疗AI的发展开辟了新的途径。

研究团队了解到,医疗领域的推理过程通常缺乏明确的步骤,难以验证。为克服这一难题,他们从医疗考试题库中精选出4万道具备唯一、客观正确答案的难题,将其转换为开放式问题,构建了一个可验证的医疗问题集。这些问题不仅要求模型进行深入推理,还能通过答案的正确性来验证推理过程的准确性。

image.png

研究团队采用两阶段训练方法来增强模型的推理能力。第一阶段,通过验证器的反馈(正确或错误)引导模型进行策略搜索,生成复杂的推理路径。模型首先初始化一个思维链(CoT),若验证器认为当前CoT不正确,模型将尝试回溯、探索新路径、验证或纠正等策略,直至找到正确答案。这些成功的推理路径随后用于微调LLM,使其拥有迭代反思的复杂推理能力。第二阶段,利用验证器提供的稀疏奖励,通过强化学习(RL)算法进一步提高模型的复杂推理能力。

image.png

实验结果显示,这种方法仅需使用4万个可验证的问题,就能使一个80亿参数的模型在医疗基准测试中提升8.5分。而一个700亿参数的模型在多个医疗基准测试中也超越了其他开源的通用和医疗专用LLM。这些结果证实了复杂推理在解决医疗问题中的有效性,以及强化学习在提升模型性能方面的显著作用。

HuatuoGPT-o1的创新之处在于,它首次使用可验证的医疗问题和医疗验证器来提升LLM的医疗复杂推理能力。通过这种方式,模型能像医生一样进行深入思考,并在给出答案前进行自我检查和修正。这不仅提高了模型在医疗领域的应用潜力,也为其他专业领域的推理能力提升提供了借鉴。

为验证模型的可靠性,研究人员使用GPT-4o作为验证器,结果显示其在第一阶段的准确率达到96.5%,在第二阶段的准确率达到94.5%。同时,他们也证实了基于LLM的验证器比传统的精确匹配方法更可靠。此外,研究人员还将该方法应用于中文医疗领域,同样取得了显著成效,证明了该方法在不同领域和语言环境下的适应性。

总体来说,HuatuoGPT-o1的问世标志着医疗AI在复杂推理方面取得了重大突破。它不仅为医疗诊断和决策提供了更可靠的工具,也为未来AI在其他专业领域的应用提供了新的思路。尽管该模型目前仍处于研究阶段,尚未可直接应用于临床,但其巨大的潜力已引起广泛关注。

论文链接:https://arxiv.org/pdf/2412.18925