CoRA: 面向可靠思维链推理的置信度-理由对齐

arXiv cs.CL 2026/06/16 04:00 论文

confidence-rationale-alignment chain-of-thought reinforcement-learning llm-reasoning grpo alignment lime

摘要

本文介绍了CoRA，一种基于GRPO的强化学习框架，旨在将LLM的置信度与生成的理由对齐，以提高思维链推理的可靠性，在多个基准测试中将不对齐误差降低了高达26.51%。

arXiv:2606.14961v1 Announce Type: new 摘要：思维链（CoT）推理可以提升LLM的性能，但当伴随的CoT理由看似合理却不完整或缺乏依据时，高答案置信度可能会产生误导。我们研究了置信度与理由的对齐问题：即模型对其最终答案的置信度是否由其生成的推理解释来证明合理。我们提出了一个基于GRPO的强化学习框架，该框架联合奖励答案正确性、最终答案概率以及基于评分标准的理由支持，其中评分标准评估了推理的立足点、连贯性、任务匹配以及与所选答案的关联性，同时不向评判者透露正确答案。在MedQA、MathQA和OpenBookQA数据集上，使用三个开放权重的LLM，我们的方法相比于未调优的检查点、SFT和仅面向正确性的GRPO，将置信度-理由对齐误差降低了高达26.51%，同时保持了有竞争力的准确率并经常改善了校准。这些结果表明，可靠的CoT推理不仅需要高置信度的答案，还需要实质性地支持这些答案的理由。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:44

# CoRA：面向可靠思维链推理的置信度-推理依据对齐

来源：https://arxiv.org/html/2606.14961
Juming Xiong¹, Weixin Liu¹, Kevin Guo¹, Congning Ni², Junchao Zhu¹, Chongyu Qu¹, Chao Yan², Katherine Brown², Avinash Baidya³, Xiang Gao³, Bradley Malin¹,², Zhijun Yin¹,²

¹范德堡大学，²范德堡大学医学中心，³Intuit AI Research

###### 摘要

思维链推理能够提升大语言模型的性能，但当伴随的思维链推理依据看似合理却不完整或缺乏充分支撑时，高答案置信度可能具有误导性。我们研究**置信度-推理依据对齐**问题：即模型对其最终答案的置信度是否由其生成的推理依据所支持。我们引入了一个基于GRPO的强化学习框架，该框架共同奖励答案正确性、最终答案概率以及基于评分标准的推理依据支撑度。该评分标准在**不向评判者暴露正确答案**的前提下，评估推理依据的根基性、连贯性、任务匹配度以及与所选答案的联系。在MedQA、MathQA和OpenBookQA三个数据集上，使用三个开源权重的大语言模型，我们的方法与未经调整的检查点、SFT以及仅基于正确性的GRPO相比，将置信度-推理依据对齐误差最多降低了26.51%，同时保持了具有竞争力的准确性并通常改善了校准效果。这些结果表明，可靠的思维链推理不仅需要高置信度的答案，还需要能实质性支撑这些答案的推理依据。

## 1 引言

参见图注

**图1：**一个置信度-推理依据不匹配的例子。基础模型和仅关注正确性的方法都以接近完美的置信度选择了正确答案，但包含了“蝙蝠产卵”这一无依据的主张。我们的方法通过将所选选项“燕子”与“孵化的后代”联系起来，生成了更能支撑最终答案的推理依据。

思维链推理已被证明能提升大语言模型在算术、常识、符号及其他推理任务上的表现(Wei等人，2022；Kojima等人，2022)。在本文中，我们使用**推理依据**来指代伴随最终答案生成的CoT解释。在许多高风险、面向用户的场景中，响应的可靠性不仅取决于最终答案的正确性，还取决于模型是否表现出自信以及其推理依据是否证实了该答案。这引出了**置信度-推理依据对齐**的概念：即模型对其最终答案的置信度在多大程度上由其生成的推理依据所支持。

这个问题很重要，因为模型可能生成流畅的推理依据，选择错误的答案，却仍对该答案赋予高置信度。此类失败可能很微妙：当一个答案同时伴随着有说服力的推理依据和强烈的置信度信号时，用户可能难以识别或纠正其中的错误。先前在人机交互领域的研究表明，推理依据和解释会强烈影响用户对模型输出的依赖，有时甚至在响应错误时也会增加依赖。因此，一个值得信赖的推理模型应仅在推理依据充分支持其所确定的答案时才表现出高置信度。

现有工作涉及该问题的相关方面，但未涉及其交互作用。CoT提示、自一致性和树结构搜索通过激发或搜索中间推理轨迹来提高推理准确性。然而，生成的推理依据可能无法真实反映决定模型答案的因素。另一方面，校准方法旨在使答案置信度反映经验正确性。但它们通常在总体上评估输出概率，而不评估单个推理依据是否在匹配的置信度水平上支持该答案。这一区别在面向人类的系统中至关重要，因为置信度和解释信号会影响用户的依赖，且可能不会被用户统一解读。

为了解决这一差距，我们引入了一个针对多项选择推理的置信度-推理依据对齐框架——CoRA。CoRA包含两个组成部分。首先，我们使用一个结构化的LLM-as-judge评分标准来评估推理依据是否具有根基性、连贯性、任务匹配度，并与模型最终确定的答案适当关联，同时不暴露正确答案。其次，我们使用基于组相对策略优化的奖励来优化大语言模型，该奖励结合了答案正确性、推理依据支撑质量和最终答案置信度。与仅基于正确性的GRPO不同，此目标鼓励模型将其置信度建立在生成的推理依据之上，而不是将置信度视为一个独立的标量。

我们在三个基准数据集（MedQA、MathQA和OpenBookQA）上，使用三个开源权重模型对CoRA进行了评估。我们测量了答案准确性、使用期望校准误差和Brier分数衡量的最终答案概率校准效果，以及置信度-推理依据不匹配度（捕捉置信度超过推理依据支撑质量的情况）。实验表明，CoRA能最一致地减少无依据的过度自信，在MathQA上效果最为显著，同时保持了竞争力的准确性。

我们的贡献有四个方面：(1) 我们提出了**置信度-推理依据对齐**这一概念，将其作为推理型大语言模型的可靠性问题，要求最终答案的置信度必须由生成的推理依据所支持。(2) 我们设计了一个结构化的LLM-as-judge评分标准，用于评估推理依据对模型所选答案的支持程度，而无需暴露正确答案。(3) 我们提出了一个基于GRPO的训练框架，结合了答案正确性、推理依据支撑质量和最终答案置信度，以减少无依据的过度自信。(4) 我们在三个基准数据集和三个开源权重模型上评估了CoRA，结果显示在大多数设置下减少了置信度-推理依据误差，同时保持了竞争力的准确性；我们进一步引入了一个下游正确性预测任务，表明CoRA能使生成的推理轨迹更具诊断信息价值。

## 2 相关工作

### 2.1 思维链推理与推理依据忠实性

CoT提示通过激发最终答案之前的中间推理步骤来改善大语言模型的推理。后续方法如零样本CoT、自一致性、思维树和STaR进一步表明，生成的推理轨迹可以通过提示、采样、搜索或从模型生成的推理依据中进行引导来提升任务准确性。这些方法展示了中间推理轨迹的实用价值，但它们主要优化或评估的是最终答案的性能。

然而，改进的推理性能并不能保证生成的推理依据能忠实解释模型的预测。先前研究表明，CoT推理依据可能忽略影响模型输出的因素，为有偏或错误的答案辩护，或未能因果性地决定最终答案。更近期的研究使用因果干预、过程验证或基于去学习的干预来测试推理步骤是否影响或证实最终预测。我们的工作建立在这种可靠性关注之上，但关注的是一个不同的问题：模型对其最终答案的置信度是否由其呈现的推理依据所支持。

### 2.2 置信度校准与置信度-质量对齐

置信度校准旨在确保预测置信度反映经验正确性。经典的校准工作表明，神经网络可能校准不佳，而事后方法如温度缩放可以改善概率估计。在大语言模型中，先前工作研究了提示引起的校准误差、模型是否能评估自身答案的正确性，以及模型如何以概率或文字形式表达不确定性。其他工作提出了事后或辅助校准方法，并综述了更广泛的LLM置信度估计技术。

近期工作也开始将置信度与响应质量联系起来。CONQORD使用强化学习将口头表达的置信度与响应质量对齐，而CoT-UQ和CER则研究CoT或置信度信号是否能改善不确定性量化和推理行为。这些研究与我们的动机密切相关，但我们的设置在两个方面有所不同：(1) 我们使用最终答案概率而非口头表达的置信度；(2) 我们明确评估置信度是否被推理依据所支持，从而产生超出总体校准的实例级对齐信号。

### 2.3 推理依据评估、LLM-as-Judge与RL训练

我们的推理依据支撑评分标准基于先前在推理依据、忠实性和基于评分标准的评估方面的工作。这些研究探讨模型如何为其决策提供文本证据，并提供了评估理性化NLP模型的基准。Jacovi和Goldberg进一步强调，解释应根据其与模型预测的关系进行评估，而不仅仅依据表面的合理性。这些想法激发了我们关注答案支撑质量：即推理依据是否使用了相关证据，遵循了连贯的推理步骤，并连接到了模型所选答案。

LLM-as-Judge评估提供了一种可扩展的方式来评估开放式输出，但先前工作也表明评判行为可能对评分标准设计敏感，并可能表现出偏见。G-Eval和Prometheus表明，结构化评估提示和细粒度评分标准可以提高基于模型评估的一致性和有用性。遵循这一工作路线，我们的评判者受到结构化评分标准的约束，并且不获取正确答案，这样它评估的是推理依据是否支持模型自身确定的答案，而非答案是否正确。

我们的优化方法与针对大语言模型的强化学习相关。PPO风格的优化已广泛应用于LLM对齐，而近期面向推理的强化学习方法如DeepSeekMath和DeepSeek-R1表明，强化学习可以改善数学和一般推理行为。与仅基于正确性的强化学习相反，我们的奖励包含了答案正确性、推理依据支撑质量和最终答案置信度。这将推理监督与校准联系起来，通过训练模型减少无依据的过度自信，而非仅仅最大化最终答案的正确性。

## 3 方法

我们开发了一个用于多项选择推理中置信度-推理依据对齐的强化学习框架，如图2所示。

参见图注

**图2：**CoRA框架概述。给定多项选择题，策略模型采样一组响应，每个响应包含一个推理依据和一个最终答案。对于每个响应，LLM评判者估计推理依据支撑质量Q，而策略模型提供最终答案置信度C。我们首先将Q和C组合成对齐得分T，然后使用T、正确性A和置信度C来计算用于GRPO优化的最终奖励R。该奖励鼓励支撑良好的高置信度答案，并惩罚无依据的过度自信。

### 3.1 评估推理依据质量的评分标准

我们将推理依据质量定义为生成的推理依据为模型最终答案提供连贯、有根基且任务适切的支持的程度。我们使用一个LLM-as-Judge来估计这种质量，该评判者输入数据集名称、问题、答案选项、可选的辅助背景知识、生成的推理依据和最终答案。辅助背景知

CoRA: 面向可靠思维链推理的置信度-理由对齐

相似文章

置信度感知对齐让推理型大语言模型更加可靠

CORA：通过一致性导向推理对齐分析与弥合多模态RLVR中的思考-答案差距

具备潜在推理能力的鲁棒高效护栏

基于代理上下文的链式思维微调长上下文推理

Mental-R1：对齐LLM推理用于心理健康评估

提交意见反馈