阿里云通义开源最强过程奖励PRM模型,7B尺寸比GPT
1月16日,阿里阿里云通义开源全新的云通义开源最数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型;在识别推理错误步骤能力上,强过Qwen2.5-Math-PRM以7B的程奖B尺寸比小尺寸就超越了GPT-4o。同时,模型通义团队还开源首个步骤级的阿里评估标准 ProcessBench,填补了大模型推理过程错误评估的云通义开源最空白。

在当前大模型推理过程中,不时存在逻辑错误或编造看似合理的模型推理步骤,如何准确识破过程谬误并减少它,阿里对增强大模型推理能力、云通义开源最提升推理可信度尤为关键。强过过程奖励模型(Process Reward Model,程奖B尺寸比 PRM)为解决这一问题提供了一种极有前景的新方法:PRM对推理过程中的每一步行为都进行评估及反馈,帮助模型更好学习和优化推理策略,模型最终提升大模型推理能力。
基于PRM的理念,通义团队提出了一种简单有效的过程奖励数据构造方法,将PRM模型常用的蒙特卡洛估计方法(MC estimation)与大模型判断(LLM-as-a-judge)创新融合,提供更可靠的推理过程反馈。通义团队基于Qwen2.5-Math-Instruct模型进行微调,从而得到72B及7B的Qwen2.5-Math-PRM模型,模型的数据利用率和评测性能表现均显著提高。

在包含GSM8K、MATH、Minerva Math等7个数学基准测试的 Best-of-N 评测中,Qwen2.5-Math-PRM-7B性能表现超越了同尺寸的开源PRMs;Qwen2.5-Math-PRM-72B的整体性能在评测中拔得头筹,优于同尺寸ORM(Outcome Reward Model )结果奖励模型Qwen2.5-Math-RM-72B。
同时,为更好衡量模型识别数学推理中错误步骤的能力,通义团队提出了全新的评估标准ProcessBench。该基准由3400个数学问题测试案例组成,其中还包含奥赛难度的题目,每个案例都有人类专家标注的逐步推理过程,可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。

在ProcessBench上对错误步骤的识别能力的评估中,72B及7B尺寸的Qwen2.5-Math-PRM均显示出显著的优势,7B版本的PRM模型不但超越同尺寸开源PRM模型,甚至超越了闭源GPT-4o-0806。这印证了过程奖励模型PRM可有效提升推理可靠性,对未来推理过程监督技术的研发提供新思路。
- ·京津冀消费者组织联合发布汛期消费安全提示
- ·河南职工福利政策升级 慰问金年度总额涨至2000元
- ·两全保险的实质是什么,两全保险是由哪两种保险形式结合而来
- ·mac miller去世!mac miller死亡真相曝光与A妹分手也是因为它
- ·定期重疾险和寿险的区别?定期重疾险和寿险哪个好?
- ·重疾险交费20年好还是30年好,重疾险交费20年每年金额一样吗
- ·酒旅业供给消费变革中,美团旅行:“住宿+”和AI服务成新方向
- ·黄磊是哪个学校的老师 黄磊的学生都有谁
- ·Tony老师的首份数字简历,美团加快发型师线上化档案建设,让好手艺拥有好生意
- ·《延禧攻略》魏璎珞扮演者吴谨言哪里人 吴谨言是四川人吗
- ·海外品牌加码天猫618 任天堂Switch2、獭祭登龙门等5万款新品尖货上新
- ·吴谨言道歉说了什么?吴谨言为什么道歉她做错了什么
- ·春节长假出境游客增多 郑州海关奉上“通关贴士”
- ·OceanBase 透露 OB Cloud 已服务数十家头部企业AI应用落地
- ·2025 清华大学 x 字节跳动程序设计竞赛训练营报名启动
- ·上海AI Lab王靖博:人形机器人,从“盲动”走向“感知驱动”
