通过过程监督改进数学推理
摘要
OpenAI 展示了过程监督——对中间推理步骤而非仅对最终答案进行奖励——如何改进数学推理,同时降低对齐成本。这种方法在不牺牲模型性能的前提下,产生更易解释、更符合人类价值观的推理过程。
我们训练了一个模型,通过对推理的每一个正确步骤进行奖励("过程监督")而非仅对最终正确答案进行奖励("结果监督"),在数学问题求解方面取得了新的最先进水平。除了相比结果监督能提升性能外,过程监督还具有重要的对齐优势:它直接训练模型生成经过人类认可的思维链。
查看缓存全文
缓存时间: 2026/04/20 14:44
# 利用过程监督改进数学推理能力
来源:https://openai.com/index/improving-mathematical-reasoning-with-process-supervision/
过程监督相比结果监督有多个对齐优势。它直接奖励模型遵循已对齐的思维链,因为过程中的每一步都会获得精确的监督。过程监督也更可能产生可解释的推理过程,因为它鼓励模型遵循人类批准的流程。相比之下,结果监督可能会奖励未对齐的过程,且通常更难以审查。
在某些情况下,更安全的 AI 系统方法可能会导致性能下降3 (https://openai.com/index/improving-mathematical-reasoning-with-process-supervision/#citation-bottom-3),这种代价被称为*对齐税*。一般来说,任何对齐税都可能阻碍对齐方法的采用,因为部署能力最强模型的压力存在。我们下面的结果表明,过程监督实际上产生的是负对齐税,至少在数学领域是这样。这可能会增加过程监督的采用率,我们认为这会产生积极的对齐副作用。
相似文章
ATTNPO: 用于高效推理的注意力引导过程监督
ATTNPO 引入了一个注意力引导的过程监督框架,通过利用内在的注意力信号进行步级信用分配,减少大型推理模型的过度思考,在 9 个基准测试中实现了更好的性能和更短的推理长度。
将结果监督内化为过程监督:推理强化学习的新范式
介绍了 IOP,这是一个将结果监督内化为过程监督以用于推理强化学习的框架,能够在无需外部标注的情况下实现细粒度的信用分配。
推理监督的哪些特性与下游模型质量的提升相关?
本文研究内在数据指标,以在代价高昂的微调之前预测推理监督的效用,发现较小的模型受益于对齐导向的指标,而较大的模型则从冗长跟踪中获益,从而建立了一个尺度感知的框架来验证推理数据集。
评估思维链的可监控性
OpenAI研究人员引入了一个框架和一套包含13项评估的系统,用于衡量大型语言模型中思维链的可监控性。研究发现,监控推理过程比仅监控输出有效得多,这为AI安全及规模化监督提供了重要启示。
真正提升数学推理的是什么:超越纯代码的结构化推理信号
本文挑战了代码能提升语言模型推理能力的观点,通过受控的预训练实验发现,代码主要提升编程能力,而推理能力的提升来自结构化推理轨迹(如代码-文本混合和数学-文本混合)。