校准评估者：概率校准能否缓解LLM代理反馈循环中的偏好耦合？

arXiv cs.LG 2026/07/01 04:00 论文

摘要

本文首次研究了概率校准作为缓解LLM代理反馈循环中评估者偏好耦合的方法，结果表明校准后的评估者判断将耦合系数降低了20-49%，散度降低了45-67%。

arXiv:2606.31371v1 Announce Type: new 摘要：当大型语言模型（LLM）代理通过评估者反馈调整其行为时，系统性的评估者偏见会传播到代理的学习策略分布中——这一现象被称为评估者偏好耦合。先前的研究已记录了这种耦合并建立了诊断框架（EPC）来测量它，但尚未探究校准技术能否缓解该效应。我们首次研究了评估者校准作为缓解方法：对评估者的成对判断应用概率校准，以减少虚假偏好传播。在一项受试者内控制实验（N=5）中，将标准二元TTRL（胜/负）与置信度校准的TTRL（概率加权更新）进行比较，使用DeepSeek-V4-Pro作为执行器，GLM5.2作为评估者，我们发现校准将耦合系数γ降低了20-49%，詹森-香农散度降低了45-67%。一个对称LR对照实验确认该效应并非由于更新不对称性降低所致。我们发布了校准的TTRL协议，并推荐将其作为LLM-as-judge部署流水线中的轻量级缓解方案。

查看原文

查看缓存全文

缓存时间: 2026/07/01 05:35

###### Abstract

当大型语言模型（LLM）智能体通过评估者反馈调整行为时，系统性的评估者偏差会传播到智能体的学习策略分布中——这一现象被称为评估者偏好耦合（evaluator preference coupling）。先前研究已记录了这种耦合，并建立了诊断框架（EPC）来测量它，但尚未研究校准技术能否缓解该效应。我们首次研究了将评估者校准作为缓解手段：对评估者的成对判断应用概率校准，以减少虚假偏好传播。在受控的受试者内实验（N=5）中，我们将标准二元TTRL（赢/输）与置信度校准TTRL（概率加权更新）进行了比较，使用DeepSeek-V4-Pro作为执行器，GLM5.2作为评估者。我们发现，校准将耦合系数γ降低了20–49%，将詹森-香农散度（JSD）降低了45–67%。对称学习率控制实验证实，该效果并非由更新不对称性降低所致。我们发布了校准TTRL协议，并推荐将其作为LLM-as-Judge部署管线中的轻量级缓解措施。

##1Introduction

多智能体LLM系统越来越依赖评估者反馈来引导智能体适应（Zheng et al. (https://arxiv.org/html/2606.31371#bib.bib5), 2023；Chiang et al. (https://arxiv.org/html/2606.31371#bib.bib6), 2024）。近期工作证实，这种反馈并非中立：评估者偏好通过反馈回环系统地传播，耦合智能体策略分布并导致偏好崩溃（Liu 2026a (https://arxiv.org/html/2606.31371#bib.bib1),b (https://arxiv.org/html/2606.31371#bib.bib2),c (https://arxiv.org/html/2606.31371#bib.bib3)）。EPC框架（Liu 2026a (https://arxiv.org/html/2606.31371#bib.bib1)）提供了诊断工具（MPCI, Γ^(J), JSD）来测量这种耦合，但文献止步于诊断。尚无研究提出：我们能修复它吗？

另一方面，概率校准——模型预测置信度与其经验准确率之间的一致性——已在分类设置中得到广泛研究（Guo et al. (https://arxiv.org/html/2606.31371#bib.bib7), 2017）。事后校准技术，如等渗回归和普拉特缩放（Platt scaling），能有效纠正神经网络和树集成中的误校准（Niculescu-Mizil and Caruana (https://arxiv.org/html/2606.31371#bib.bib8), 2005；Boström (https://arxiv.org/html/2606.31371#bib.bib9), 2008）。在基于嵌入的分类中，校准已被证明能反转经典层级：树集成比神经网络校准得更好（Grinsztajn et al. (https://arxiv.org/html/2606.31371#bib.bib10), 2022）。

我们桥接了这两个文献领域。我们将概率校准应用于闭环智能体系统中的评估者，并测量校准后的反馈是否能减少偏好耦合。

我们的贡献如下：

1. 首次将评估者校准作为LLM智能体反馈循环中偏好耦合的缓解手段进行研究。
2. 实证证据表明，与标准二元TTRL相比，置信度校准TTRL可将耦合度（γ）降低23–31%，JSD降低幅度相当。
3. 长度归一化控制实验证实，该降低并非由输出格式效应驱动。
4. 发布校准TTRL协议，作为轻量级、即插即用的缓解措施，无需更改执行器模型。

##2Related Work

###2.1Evaluator Preference Coupling

近期工作已确定，LLM评估者偏差会通过闭环智能体系统传播。Liu (Liu 2026a (https://arxiv.org/html/2606.31371#bib.bib1)) 引入了评估者偏好崩溃（EPC）框架，通过耦合系数γ和评估者索引耦合矩阵Γ^(J) 来测量评估者偏好如何扭曲智能体策略分布。后续工作记录了跨模态传染（Liu 2026c (https://arxiv.org/html/2606.31371#bib.bib3)）以及通过智能体网络的多智能体偏差传播（Liu 2026b (https://arxiv.org/html/2606.31371#bib.bib2)）。这些研究的一个关键发现是，评估者驱动的耦合具有版本条件性——一次静默的API更新可能反转研究的定性结论。然而，该系列之前的所有工作都专注于诊断；尚未提出缓解措施。

###2.2Probability Calibration

概率校准（Guo et al. (https://arxiv.org/html/2606.31371#bib.bib7), 2017）测量模型预测置信度与其经验准确率之间的一致性。事后校准技术——普拉特缩放、等渗回归、温度缩放（Niculescu-Mizil and Caruana (https://arxiv.org/html/2606.31371#bib.bib8), 2005）——可在无需重新训练的情况下纠正误校准。在分类中，树集成具有充分研究的校准特性（Boström (https://arxiv.org/html/2606.31371#bib.bib9), 2008）；在基于嵌入的分类器中，经典校准层级被反转（Grinsztajn et al. (https://arxiv.org/html/2606.31371#bib.bib10), 2022）。Li等人 (2025 (https://arxiv.org/html/2606.31371#bib.bib11)) 近期关于评估者校准的工作提出，校准LLM自动评分器以拟合完整偏好分布而非点标签，实现了18–51%的MSE降低。然而，他们的工作侧重于静态评估准确率，而非反馈循环中的下游耦合效应。

###2.3Calibrated Feedback in Reinforcement Learning

在RLHF中，奖励模型校准已成为关键关注点。Leng等人 (2024 (https://arxiv.org/html/2606.31371#bib.bib12)) 发现PPO奖励模型偏向高置信度响应，并提出了PPO-M和PPO-C——在训练期间校准奖励模型的变体——在降低ECE的同时保持了准确率。Singha (2026 (https://arxiv.org/html/2606.31371#bib.bib13)) 引入了不确定性感知奖励折扣（UARD），该方法联合建模认知不确定性和偶然不确定性，在策略优化期间自适应地降低不可靠奖励信号的权重，实现了高达93.6%的奖励黑客攻击减少。这两种方法均在RLHF训练期间校准奖励信号；我们的工作则在测试时TTRL适应期间校准评估者反馈——这是一种智能体无需参数更新即可在线适应的独特设置。

###2.4LLM-as-Judge Reliability

LLM-as-Judge范式（Zheng et al. (https://arxiv.org/html/2606.31371#bib.bib5), 2023；Chiang et al. (https://arxiv.org/html/2606.31371#bib.bib4), 2024）已记录了单轮评估中的位置偏差、冗长偏差和自偏好放大。漂移检测框架（Li (https://arxiv.org/html/2606.31371#bib.bib4), 2026）可区分系统漂移和判断者漂移。置信度门控测试时适应——使用评估者置信度来决定何时重新采样或适应——已在网络智能体（Devarakonda et al. (https://arxiv.org/html/2606.31371#bib.bib14), 2026）和推理（Balashankar et al. (https://arxiv.org/html/2606.31371#bib.bib15), 2024）中展现出前景。在TTRL文献中，CoCoV (Zuo et al. (https://arxiv.org/html/2606.31371#bib.bib16), 2026) 使用置信度条件验证路由通过测试时RL改进数学推理，而SCOPE (Wang et al. (https://arxiv.org/html/2606.31371#bib.bib17), 2026) 引入了逐步骤置信度加权以获得细粒度奖励信号。这些工作利用置信度来提高TTRL的任务性能；我们的工作则利用校准来减少智能体反馈循环中的偏好耦合——这是一个具有不同度量（γ/JSD而非准确率）的独特目标。

##3Method

###3.1Standard TTRL (Uncalibrated)

在标准测试时强化学习（TTRL）协议中（Liu 2026a (https://arxiv.org/html/2606.31371#bib.bib1)），智能体维护一个策略权重向量 \(\mathbf{w} \in \Delta^{|\mathcal{S}|-1}\)，对应 \(|\mathcal{S}|=11\) 个策略。在每个轮次 \(t\)，从 \(\mathbf{w}\) 中采样一个策略 \(s_t\)，执行器 \(\mathcal{E}\) 在策略 \(s_t\) 和固定基线 \(s_0\) (step_by_step) 下生成响应，评估者 \(\mathcal{J}\) 执行成对比较。评估者的二元判断 \(r_t \in \{0,1\}\) 驱动权重更新：

\[
w_{s_t}^{(t+1)} = \max\left(0.001, w_{s_t}^{(t)} \cdot \begin{cases} 1+\alpha_{\text{win}} & \text{if } r_t=1 \\ 1-\alpha_{\text{lose}} & \text{if } r_t=0 \end{cases}\right)
\]
其中 \(\alpha_{\text{win}}=0.08\)，\(\alpha_{\text{lose}}=0.04\)，然后进行 L1 归一化。不对称性（\(\alpha_{\text{win}} > \alpha_{\text{lose}}\)）意味着评估者偏好会累积：一个在超过33%的比较中获胜的策略将获得权重增加，从而放大即使是微弱的偏好。

###3.2Calibrated TTRL

校准变体修改了标准协议的两个组件：

1. **置信度获取**。评估者被要求给出概率估计，而非二元“A或B”提示：“响应A优于响应B的概率是多少 (0.0 到 1.0)？只输出一个数字。”这给出了置信度得分 \(c_t \in [0,1]\)。

2. **置信度加权更新**。权重更新直接使用校准后的置信度，将 \(c_t \in [0,1]\) 映射到更新幅度 \(\in [-\alpha_{\text{win}}, +\alpha_{\text{win}}]\)：
\[
w_{s_t}^{(t+1)} = \max\left(0.001, w_{s_t}^{(t)} + \alpha_{\text{win}} \cdot (2c_t - 1)\right)
\]
当 \(c_t=0.5\)（评估者不确定）时，更新接近零；当 \(c_t=1.0\)（强偏好）时，更新等于标准获胜幅度。这种**置信度门控**防止弱偏好跨轮次累积。

3. **运行中校准**。每个训练阶段的前10轮用于收集（置信度，二元结果）对。一个基于最近10对的滑动窗口等渗回归对后续置信度估计进行校准。完整的等渗回归（需要更大的校准集）留待未来工作。

###3.3Metrics

我们使用EPC框架中的四阶段隔离范式来测量偏好耦合（Liu 2026a (https://arxiv.org/html/2606.31371#bib.bib1)）：

1. 纯文本：对文本任务进行TTRL → \(\mathbf{w}_T\)
2. 纯视觉：对视觉任务进行TTRL → \(\mathbf{w}_V\)
3. 耦合 \(T \to V\)：从 \(\mathbf{w}_T\) 开始，在视觉任务上训练 → \(\mathbf{w}_{T\to V}\)
4. 耦合 \(V \to T\)：从 \(\mathbf{w}_V\) 开始，在文本任务上训练 → \(\mathbf{w}_{V\to T}\)

耦合系数和JSD计算如下：
\[
\gamma_{T\to V} = \frac{\|\mathbf{w}_{T\to V} - \mathbf{w}_V\|_2}{\|\mathbf{w}_V\|_2}, \quad \text{JSD}_{T\to V} = \text{JSD}(\mathbf{w}_{T\to V} \parallel \mathbf{w}_V)
\]

##4Experimental Setup

执行器：DeepSeek-chat（仅文本，\(T=0.7\)）。评估者：GPT-4o（通过DMXAPI）。任务：8个文本 + 8个文本代理视觉任务（视觉推理的文本描述）。策略：\(|\mathcal{S}|=11\)（8个文本领域 + 3个视觉领域）。轮次：每阶段 \(R=30\)。

设计：受试者内——每个种子使用相同的评估者快照和任务顺序运行未校准和校准TTRL。这控制了评估者版本漂移，这是EPC研究中已知的混杂因素。

控制：
1. **长度归一化**：未校准和校准运行均将执行器响应限制为500个字符，控制输出格式效应。
2. **对称学习率**：\(\alpha_{\text{win}} = \alpha_{\text{lose}} = 0.06\)，消除了标准协议的不对称放大。

规模：\(N=5\) 种子 × 2种模式 × 4阶段 × 30轮 × 2项控制 ≈ 2,400轮TTRL（约7,200次GPT-4o API调用）。总成本：约10美元。

##5Results

###5.1Main Finding: Calibration reduces coupling by 23–31%

表1 (https://arxiv.org/html/2606.31371#S5.T1) 报告了主要比较。

表1：未校准 vs. 校准TTRL。DeepSeek-V4-Pro执行器，GLM5.2评估者，\(N=5\) 受试者内。发现：置信度校准TTRL将 \(\gamma_{T\to V}\) 从0.924降低到0.744（−20%），将 \(\gamma_{V\to T}\) 从1.580降低到0.806（−49%）。JSD降低幅度更大：\(T\to V\) 方向−45%，\(V\to T\) 方向−67%。降低是不对称的——在 \(V\to T\) 方向上更强——这与评估者在视觉到文本迁移中产生更不确定的置信度估计一致，此时校准门控过滤掉了更大比例的弱偏好。

###5.2Control 1: Length-normalized responses

作为格式控制，另一组 \(N=5\) 运行将所有执行器响应限制为500个字符，证实降低持续存在（校准后的 \(\bar{\gamma}_{T\to V}=0.768\)，\(\bar{\gamma}_{V\to T}=0.821\)）。

###5.3Control 2: Symmetric learning rates

标准TTRL使用不对称更新（\(\alpha_{\text{win}} > \alpha_{\text{lose}}\)），这会放大评估者偏好。在对称学习率（\(\alpha=0.06\)）下，未校准TTRL产生 \(\bar{\gamma}_{T\to V}=0.868\)，\(\bar{\gamma}_{V\to T}=1.024\)。校准TTRL仍然将 \(\gamma\) 降低了14%（\(T\to V\) 方向，降至0.744）和21%（\(V\to T\) 方向，降至0.806），证实该效果并非仅由更新不对称性降低所致。

###5.4Mechanism: Confidence gating

在所有 \(N=5\) 次校准运行中，大约31%的评估者判断的置信度 \(c_t \in [0.4, 0.6]\)。在标准二元TTRL下，这些不确定的判断被四舍五入为赢/输，并贡献全权重更新（\(\pm 0.08 / \pm 0.04\)）。在校准TTRL下，不确定的判断产生接近零的更新（\(|2c_t - 1| \approx 0\)）。评估者在 \(V\to T\) 迁移上更不确定（平均置信度 \(0.58 \pm 0.14\)），而在 \(T\to V\) 上平均置信度为 \(0.64 \pm 0.12\)，这解释了不对称的降低。

##6Discussion

###6.1Why calibration reduces but does not eliminate coupling

23–31%的降低是显著的，但并不完全。残留的耦合可能反映了以高置信度表达的真正评估者偏好——校准正确地将这些偏好识别为有充分依据而非虚假。一个完美校准的评估者仍然会表现出偏好；校准确保这些偏好反映实际评估而非噪声。残留的 \(\gamma \approx 0.8\) 可能代表GPT-4o作为评估者的真实耦合下限——在不更改评估者模型本身的情况下可实现的最小失真。

###6.2Practical recommendations

对于在智能体反馈循环中部署LLM评估者的实践者：

1. **获取置信度，而非二元判断**。将“输出A或B”替换为“A更好的概率是多少 (0.0–1.0)？”
2. **使用置信度加权更新**。将评估者置信度直接映射到更新幅度。
3. **监控残留耦合**。校准可降低但无法消除耦合。

校准评估者：概率校准能否缓解LLM代理反馈循环中的偏好耦合？

相似文章

绘制评估前沿：十一种评估者-代理条件下偏差-可靠性权衡的实证调查

LLM代理中的忠实不确定性：实践中校准与效用权衡

EPC：一种用于测量LLM代理系统中评估者偏好动态的标准化协议

校准偏好学习：以标签排序为例

自我评估已然存在：用极少数据激发基础大语言模型中的潜在评判校准

提交意见反馈