通过过程监督改进数学推理

OpenAI Blog 论文

摘要

OpenAI 展示了过程监督——对中间推理步骤而非仅对最终答案进行奖励——如何改进数学推理,同时降低对齐成本。这种方法在不牺牲模型性能的前提下,产生更易解释、更符合人类价值观的推理过程。

我们训练了一个模型,通过对推理的每一个正确步骤进行奖励("过程监督")而非仅对最终正确答案进行奖励("结果监督"),在数学问题求解方面取得了新的最先进水平。除了相比结果监督能提升性能外,过程监督还具有重要的对齐优势:它直接训练模型生成经过人类认可的思维链。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:44

# 利用过程监督改进数学推理能力 来源:https://openai.com/index/improving-mathematical-reasoning-with-process-supervision/ 过程监督相比结果监督有多个对齐优势。它直接奖励模型遵循已对齐的思维链,因为过程中的每一步都会获得精确的监督。过程监督也更可能产生可解释的推理过程,因为它鼓励模型遵循人类批准的流程。相比之下,结果监督可能会奖励未对齐的过程,且通常更难以审查。 在某些情况下,更安全的 AI 系统方法可能会导致性能下降3 (https://openai.com/index/improving-mathematical-reasoning-with-process-supervision/#citation-bottom-3),这种代价被称为*对齐税*。一般来说,任何对齐税都可能阻碍对齐方法的采用,因为部署能力最强模型的压力存在。我们下面的结果表明,过程监督实际上产生的是负对齐税,至少在数学领域是这样。这可能会增加过程监督的采用率,我们认为这会产生积极的对齐副作用。

相似文章

ATTNPO: 用于高效推理的注意力引导过程监督

arXiv cs.CL

ATTNPO 引入了一个注意力引导的过程监督框架,通过利用内在的注意力信号进行步级信用分配,减少大型推理模型的过度思考,在 9 个基准测试中实现了更好的性能和更短的推理长度。

推理监督的哪些特性与下游模型质量的提升相关?

arXiv cs.AI

本文研究内在数据指标,以在代价高昂的微调之前预测推理监督的效用,发现较小的模型受益于对齐导向的指标,而较大的模型则从冗长跟踪中获益,从而建立了一个尺度感知的框架来验证推理数据集。

评估思维链的可监控性

OpenAI Blog

OpenAI研究人员引入了一个框架和一套包含13项评估的系统,用于衡量大型语言模型中思维链的可监控性。研究发现,监控推理过程比仅监控输出有效得多,这为AI安全及规模化监督提供了重要启示。