PRM

阿里云通义开源最强过程奖励PRM模型,7B尺寸比GPT-4o更能发现推理错误

1月16日,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型;在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸就超越了GPT-4o。 同时,通义团队还开源首个步骤级的评估标准 ProcessBench,填补了大模型推理过程错误评估的空白。 在当前大模型推理过程中,不时存在逻辑错误或编造看似合理的推理步骤,如何准确识破过程谬误并减少它,对增强大模型推理能力、提升推理可信度尤为关键。
  • 1