process-reward

#process-reward

使用评分奖励（Rubric Rewards）纠正LLM数学推理中的奇迹步骤

arXiv cs.CL ↗ · 2026-04-20 缓存

本文识别并解决了LLM数学推理中的‘奇迹步骤’问题——即无根据跳至正确答案的奖励篡改行为——通过提出评分奖励模型（RRM），一种面向过程的奖励函数，评估整个推理轨迹。RRM在AIME2024上实现了显著提升（Verified Pass@1024从26.7%提高至62.6%），并将奇迹步骤减少了71%。

0 人收藏 0 人点赞

process-reward

使用评分奖励（Rubric Rewards）纠正LLM数学推理中的奇迹步骤

提交意见反馈