您的位置 首页 财经

ACL 2025|驱动LLM强大的过程级奖励模型正遭遇「信任危机」?

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!


炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:机器之心Pro)

ACL 2025|驱动LLM强大的过程级奖励模型正遭遇「信任危机」?

近年来,大型语言模型(LLMs)在复杂推理任务中展现出惊人的能力,这在很大程度上得益于过程级奖励模型(PRMs)的赋能。PRMs 作为 LLMs 进行多步推理和决策的关键「幕后功臣」,负责评估推理过程的每一步,以引导模型的学习方向。

然而,它们真的足够可靠吗?一项最新研究——已荣幸被 ACL 2025 Main 接收——揭示了现有 PRMs 在识别推理过程中细微错误方面的显著不足,其表现甚至可能不如随机猜测,敲响了「信任危机」的警钟!

ACL 2025|驱动LLM强大的过程级奖励模型正遭遇「信任危机」?

PRM 真的过时了吗?基于规则奖励的强化学习不断暴露假阳性及推理过程幻觉严重等问题,因此我们需要针对过程的有效监督,而如何评测过程监督的质量就是一个值得探索的问题,目前主流的评估方法往往过度关注最终结果的正确性,而忽视了对推理过程中细致入微的错误类型的识别。

例如,一个推理步骤可能存在冗余、部分正确、甚至完全错误等多种状态,简单的「正确/错误」标签远不足以捕捉其内在的复杂性与细微差别。这种评估粒度的缺失,使得我们难以真正理解 PRMs 的局限性,也阻碍了其能力的进一步提升。

为填补这一空白,复旦大学、苏州大学、上海人工智能实验室、石溪大学、香港中文大学等机构联合提出了 PRMBench,一个专为评估 PRMs 精细化错误检测能力而设计、且极具挑战性的基准。这项被 ACL 2025 接收的突破性研究,不仅深入剖析了现有 PRMs 的「软肋」,更首次系统性地揭示了它们在复杂推理评估中的深层缺陷,为未来研究指明了清晰的方向。

ACL 2025|驱动LLM强大的过程级奖励模型正遭遇「信任危机」?图 1 PRMBench 的主要结构,左侧展示了数据整理的流程;右侧展示了评估主题的示例以及测试模型的相对性能表现。

PRMBench:一次针对 PRMs 的「全方位体检」

PRMBench 并非简单的数据集扩充,而是一套经过精心构建的「全方位体检方案」,旨在系统性、多维度地考察 PRMs 的各项核心能力。

PRMBench 的独特优势

本文的主要发现

问题源起:现有 PRMs 的「盲区」

在一项需要举出反例的复杂证明题实践中,我们观察到一个令人担忧的现象:即使像 o1 这样强大的大语言模型,在推理过程中自身已意识到问题,仍可能产生错误的推理步骤。更令人警惕的是,当我们调用现有过程级奖励模型(PRMs)去检测 o1 生成的推理过程时,结果却发现多数 PRMs 无法检测出这种细粒度的错误。这一发现直指核心问题:当前的 PRMs 是否真正具备检测推理过程中细粒度错误的能力?

ACL 2025|驱动LLM强大的过程级奖励模型正遭遇「信任危机」?图 2 当询问模型一道拉格朗日中值定理相关问题时,o1 和 PRM 可能会产生的错误。

然而,现有针对 PRM 评测而设计的基准,大多仅仅关注步骤判断的宏观对错,而忽视了对错误类型本身的细致分类。这意味着当前业界急需一个能够全面评测 PRMs 在细粒度错误上表现的综合基准。而这,正是我们推出 PRMBench 这一精细化基准的根本驱动力。我们希望通过 PRMBench,打破现有评估的局限,真正遴选出能够有效识别细粒度错误的「优秀」PRM,并为未来 PRMs 的发展提供精确的诊断工具。

ACL 2025|驱动LLM强大的过程级奖励模型正遭遇「信任危机」?

表 1 PRMBench 与其他现有基准的对比。

PRMBench 构建:实现全面而严谨的评估

ACL 2025|驱动LLM强大的过程级奖励模型正遭遇「信任危机」?

图 3 PRMBench 包含三大评测主题:「简洁性」(Simplicity)、「合理性」(Soundness)和「敏感性」(Sensitivity)。

数据来源与构建:

评估维度与指标:

PRMBench 的评估体系分为三大主要领域,旨在对 PRMs 进行全方位的深度剖析:

实验与关键发现

评估模型:我们对 25 个主流模型进行了广泛测试,其中包括了各种开源 PRMs(如 Skywork-PRM、Llemma-PRM、MATHMinos-Mistral、MathShepherd-Mistral、RLHFlow-PRM 等)以及通过巧妙提示作为 Critic Models 的优秀闭源语言模型(如 GPT-4o、o1-mini、Gemini-2-Thinking 等)。

评估指标:

关键发现:

ACL 2025|驱动LLM强大的过程级奖励模型正遭遇「信任危机」?

表 2 PRMBench 的主要结果概览。

深入分析:揭示 PRMs 的潜在偏见与影响因素

「正确标签偏好」显著:许多 PRMs 在评估中表现出对「正确」标签的明显偏好,导致它们在识别错误标签测试样例(即「阴性数据」)时存在困难,这严重影响了其公正性和全面性。

ACL 2025|驱动LLM强大的过程级奖励模型正遭遇「信任危机」?

表 3 PRMBench 下模型对于正确标签测试样例(阳性数据)和错误标签测试样例(阴性数据)的得分对比及相似度。

错误位置的影响:深入分析发现,PRMs 的性能会随着推理步骤在推理链中位置的逐渐靠后而呈现出渐进式提高。这一现象揭示了 PRMs 在处理推理早期阶段错误时的潜在挑战。

ACL 2025|驱动LLM强大的过程级奖励模型正遭遇「信任危机」?图 4 推理步骤位于推理链中不同位置对模型 PRMScore 的影响。

少样本 ICL 的影响有限:实验结果表明,在奖励模型评估过程中使用不同数量的 In-Context Learning(ICL)示例,对闭源模型的性能影响甚微。这提示我们,对于 PRMs 的提升,可能需要更深层次的模型结构或训练范式创新,而非仅仅依赖提示工程。

ACL 2025|驱动LLM强大的过程级奖励模型正遭遇「信任危机」?

表 4 不同 Few-shot 数目对于提示为 Critic Model 的通用语言模型表现影响。

PRM 易受「假阳性」影响,暴露「奖励黑客」问题:过程级奖励模型(PRMs)往往难以识别那些表面上看似合理、实则存在错误的推理步骤,也难以识别结果正确,但过程存在错误的「假阳性」现象,这使得它们存在被模型「钻空子」、易受「奖励黑客」攻击的风险。为验证这一现象,作者将各模型在 PRMBench 与常用的 Best-of-N(BoN)评估方法上的表现进行了对比。结果显示,PRMBench 在区分模型能力方面具有更高敏感性,而 PRMBench 与 BoN 之间的明显不一致也进一步揭示出当前 PRMs 在应对「假阳性」问题上的显著不足。

ACL 2025|驱动LLM强大的过程级奖励模型正遭遇「信任危机」?

表5. 使用不同 PRM 在 Best-of-8 评估与 PRMBench 评估下的得分,可区分性和相似性对比

结语与未来展望

PRMBench 的发布,不仅是一个新的、更高标准的评估基准,更是一声警钟,提醒我们必须重新审视现有 PRMs 的能力边界,并加速其在复杂推理场景下细粒度错误检测能力的发展。

研究的深远意义与展望:

「我们坚信,PRMBench 的发布将成为推动过程级奖励模型评估和发展研究的坚实基石,为构建新一代高度可靠的 AI 系统贡献力量!」研究团队表示。

立即探索PRMBench,共同迎接挑战!

本文来自网络,不代表天牛新闻网立场,转载请注明出处:http://www.rxjzzs.cn/20299.html

作者: wczz1314

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部