校准评估者:概率校准能否缓解LLM代理反馈循环中的偏好耦合?
摘要
本文首次研究了概率校准作为缓解LLM代理反馈循环中评估者偏好耦合的方法,结果表明校准后的评估者判断将耦合系数降低了20-49%,散度降低了45-67%。
arXiv:2606.31371v1 Announce Type: new
摘要:当大型语言模型(LLM)代理通过评估者反馈调整其行为时,系统性的评估者偏见会传播到代理的学习策略分布中——这一现象被称为评估者偏好耦合。先前的研究已记录了这种耦合并建立了诊断框架(EPC)来测量它,但尚未探究校准技术能否缓解该效应。我们首次研究了评估者校准作为缓解方法:对评估者的成对判断应用概率校准,以减少虚假偏好传播。在一项受试者内控制实验(N=5)中,将标准二元TTRL(胜/负)与置信度校准的TTRL(概率加权更新)进行比较,使用DeepSeek-V4-Pro作为执行器,GLM5.2作为评估者,我们发现校准将耦合系数γ降低了20-49%,詹森-香农散度降低了45-67%。一个对称LR对照实验确认该效应并非由于更新不对称性降低所致。我们发布了校准的TTRL协议,并推荐将其作为LLM-as-judge部署流水线中的轻量级缓解方案。
查看缓存全文
缓存时间: 2026/07/01 05:35
###### Abstract
当大型语言模型(LLM)智能体通过评估者反馈调整行为时,系统性的评估者偏差会传播到智能体的学习策略分布中——这一现象被称为评估者偏好耦合(evaluator preference coupling)。先前研究已记录了这种耦合,并建立了诊断框架(EPC)来测量它,但尚未研究校准技术能否缓解该效应。我们首次研究了将评估者校准作为缓解手段:对评估者的成对判断应用概率校准,以减少虚假偏好传播。在受控的受试者内实验(N=5)中,我们将标准二元TTRL(赢/输)与置信度校准TTRL(概率加权更新)进行了比较,使用DeepSeek-V4-Pro作为执行器,GLM5.2作为评估者。我们发现,校准将耦合系数γ降低了20–49%,将詹森-香农散度(JSD)降低了45–67%。对称学习率控制实验证实,该效果并非由更新不对称性降低所致。我们发布了校准TTRL协议,并推荐将其作为LLM-as-Judge部署管线中的轻量级缓解措施。
##1Introduction
多智能体LLM系统越来越依赖评估者反馈来引导智能体适应(Zheng et al. (https://arxiv.org/html/2606.31371#bib.bib5), 2023;Chiang et al. (https://arxiv.org/html/2606.31371#bib.bib6), 2024)。近期工作证实,这种反馈并非中立:评估者偏好通过反馈回环系统地传播,耦合智能体策略分布并导致偏好崩溃(Liu 2026a (https://arxiv.org/html/2606.31371#bib.bib1),b (https://arxiv.org/html/2606.31371#bib.bib2),c (https://arxiv.org/html/2606.31371#bib.bib3))。EPC框架(Liu 2026a (https://arxiv.org/html/2606.31371#bib.bib1))提供了诊断工具(MPCI, Γ^(J), JSD)来测量这种耦合,但文献止步于诊断。尚无研究提出:我们能修复它吗?
另一方面,概率校准——模型预测置信度与其经验准确率之间的一致性——已在分类设置中得到广泛研究(Guo et al. (https://arxiv.org/html/2606.31371#bib.bib7), 2017)。事后校准技术,如等渗回归和普拉特缩放(Platt scaling),能有效纠正神经网络和树集成中的误校准(Niculescu-Mizil and Caruana (https://arxiv.org/html/2606.31371#bib.bib8), 2005;Boström (https://arxiv.org/html/2606.31371#bib.bib9), 2008)。在基于嵌入的分类中,校准已被证明能反转经典层级:树集成比神经网络校准得更好(Grinsztajn et al. (https://arxiv.org/html/2606.31371#bib.bib10), 2022)。
我们桥接了这两个文献领域。我们将概率校准应用于闭环智能体系统中的评估者,并测量校准后的反馈是否能减少偏好耦合。
我们的贡献如下:
1. 首次将评估者校准作为LLM智能体反馈循环中偏好耦合的缓解手段进行研究。
2. 实证证据表明,与标准二元TTRL相比,置信度校准TTRL可将耦合度(γ)降低23–31%,JSD降低幅度相当。
3. 长度归一化控制实验证实,该降低并非由输出格式效应驱动。
4. 发布校准TTRL协议,作为轻量级、即插即用的缓解措施,无需更改执行器模型。
##2Related Work
###2.1Evaluator Preference Coupling
近期工作已确定,LLM评估者偏差会通过闭环智能体系统传播。Liu (Liu 2026a (https://arxiv.org/html/2606.31371#bib.bib1)) 引入了评估者偏好崩溃(EPC)框架,通过耦合系数γ和评估者索引耦合矩阵Γ^(J) 来测量评估者偏好如何扭曲智能体策略分布。后续工作记录了跨模态传染(Liu 2026c (https://arxiv.org/html/2606.31371#bib.bib3))以及通过智能体网络的多智能体偏差传播(Liu 2026b (https://arxiv.org/html/2606.31371#bib.bib2))。这些研究的一个关键发现是,评估者驱动的耦合具有版本条件性——一次静默的API更新可能反转研究的定性结论。然而,该系列之前的所有工作都专注于诊断;尚未提出缓解措施。
###2.2Probability Calibration
概率校准(Guo et al. (https://arxiv.org/html/2606.31371#bib.bib7), 2017)测量模型预测置信度与其经验准确率之间的一致性。事后校准技术——普拉特缩放、等渗回归、温度缩放(Niculescu-Mizil and Caruana (https://arxiv.org/html/2606.31371#bib.bib8), 2005)——可在无需重新训练的情况下纠正误校准。在分类中,树集成具有充分研究的校准特性(Boström (https://arxiv.org/html/2606.31371#bib.bib9), 2008);在基于嵌入的分类器中,经典校准层级被反转(Grinsztajn et al. (https://arxiv.org/html/2606.31371#bib.bib10), 2022)。Li等人 (2025 (https://arxiv.org/html/2606.31371#bib.bib11)) 近期关于评估者校准的工作提出,校准LLM自动评分器以拟合完整偏好分布而非点标签,实现了18–51%的MSE降低。然而,他们的工作侧重于静态评估准确率,而非反馈循环中的下游耦合效应。
###2.3Calibrated Feedback in Reinforcement Learning
在RLHF中,奖励模型校准已成为关键关注点。Leng等人 (2024 (https://arxiv.org/html/2606.31371#bib.bib12)) 发现PPO奖励模型偏向高置信度响应,并提出了PPO-M和PPO-C——在训练期间校准奖励模型的变体——在降低ECE的同时保持了准确率。Singha (2026 (https://arxiv.org/html/2606.31371#bib.bib13)) 引入了不确定性感知奖励折扣(UARD),该方法联合建模认知不确定性和偶然不确定性,在策略优化期间自适应地降低不可靠奖励信号的权重,实现了高达93.6%的奖励黑客攻击减少。这两种方法均在RLHF训练期间校准奖励信号;我们的工作则在测试时TTRL适应期间校准评估者反馈——这是一种智能体无需参数更新即可在线适应的独特设置。
###2.4LLM-as-Judge Reliability
LLM-as-Judge范式(Zheng et al. (https://arxiv.org/html/2606.31371#bib.bib5), 2023;Chiang et al. (https://arxiv.org/html/2606.31371#bib.bib4), 2024)已记录了单轮评估中的位置偏差、冗长偏差和自偏好放大。漂移检测框架(Li (https://arxiv.org/html/2606.31371#bib.bib4), 2026)可区分系统漂移和判断者漂移。置信度门控测试时适应——使用评估者置信度来决定何时重新采样或适应——已在网络智能体(Devarakonda et al. (https://arxiv.org/html/2606.31371#bib.bib14), 2026)和推理(Balashankar et al. (https://arxiv.org/html/2606.31371#bib.bib15), 2024)中展现出前景。在TTRL文献中,CoCoV (Zuo et al. (https://arxiv.org/html/2606.31371#bib.bib16), 2026) 使用置信度条件验证路由通过测试时RL改进数学推理,而SCOPE (Wang et al. (https://arxiv.org/html/2606.31371#bib.bib17), 2026) 引入了逐步骤置信度加权以获得细粒度奖励信号。这些工作利用置信度来提高TTRL的任务性能;我们的工作则利用校准来减少智能体反馈循环中的偏好耦合——这是一个具有不同度量(γ/JSD而非准确率)的独特目标。
##3Method
###3.1Standard TTRL (Uncalibrated)
在标准测试时强化学习(TTRL)协议中(Liu 2026a (https://arxiv.org/html/2606.31371#bib.bib1)),智能体维护一个策略权重向量 \(\mathbf{w} \in \Delta^{|\mathcal{S}|-1}\),对应 \(|\mathcal{S}|=11\) 个策略。在每个轮次 \(t\),从 \(\mathbf{w}\) 中采样一个策略 \(s_t\),执行器 \(\mathcal{E}\) 在策略 \(s_t\) 和固定基线 \(s_0\) (step_by_step) 下生成响应,评估者 \(\mathcal{J}\) 执行成对比较。评估者的二元判断 \(r_t \in \{0,1\}\) 驱动权重更新:
\[
w_{s_t}^{(t+1)} = \max\left(0.001, w_{s_t}^{(t)} \cdot \begin{cases} 1+\alpha_{\text{win}} & \text{if } r_t=1 \\ 1-\alpha_{\text{lose}} & \text{if } r_t=0 \end{cases}\right)
\]
其中 \(\alpha_{\text{win}}=0.08\),\(\alpha_{\text{lose}}=0.04\),然后进行 L1 归一化。不对称性(\(\alpha_{\text{win}} > \alpha_{\text{lose}}\))意味着评估者偏好会累积:一个在超过33%的比较中获胜的策略将获得权重增加,从而放大即使是微弱的偏好。
###3.2Calibrated TTRL
校准变体修改了标准协议的两个组件:
1. **置信度获取**。评估者被要求给出概率估计,而非二元“A或B”提示:“响应A优于响应B的概率是多少 (0.0 到 1.0)?只输出一个数字。”这给出了置信度得分 \(c_t \in [0,1]\)。
2. **置信度加权更新**。权重更新直接使用校准后的置信度,将 \(c_t \in [0,1]\) 映射到更新幅度 \(\in [-\alpha_{\text{win}}, +\alpha_{\text{win}}]\):
\[
w_{s_t}^{(t+1)} = \max\left(0.001, w_{s_t}^{(t)} + \alpha_{\text{win}} \cdot (2c_t - 1)\right)
\]
当 \(c_t=0.5\)(评估者不确定)时,更新接近零;当 \(c_t=1.0\)(强偏好)时,更新等于标准获胜幅度。这种**置信度门控**防止弱偏好跨轮次累积。
3. **运行中校准**。每个训练阶段的前10轮用于收集(置信度,二元结果)对。一个基于最近10对的滑动窗口等渗回归对后续置信度估计进行校准。完整的等渗回归(需要更大的校准集)留待未来工作。
###3.3Metrics
我们使用EPC框架中的四阶段隔离范式来测量偏好耦合(Liu 2026a (https://arxiv.org/html/2606.31371#bib.bib1)):
1. 纯文本:对文本任务进行TTRL → \(\mathbf{w}_T\)
2. 纯视觉:对视觉任务进行TTRL → \(\mathbf{w}_V\)
3. 耦合 \(T \to V\):从 \(\mathbf{w}_T\) 开始,在视觉任务上训练 → \(\mathbf{w}_{T\to V}\)
4. 耦合 \(V \to T\):从 \(\mathbf{w}_V\) 开始,在文本任务上训练 → \(\mathbf{w}_{V\to T}\)
耦合系数和JSD计算如下:
\[
\gamma_{T\to V} = \frac{\|\mathbf{w}_{T\to V} - \mathbf{w}_V\|_2}{\|\mathbf{w}_V\|_2}, \quad \text{JSD}_{T\to V} = \text{JSD}(\mathbf{w}_{T\to V} \parallel \mathbf{w}_V)
\]
##4Experimental Setup
执行器:DeepSeek-chat(仅文本,\(T=0.7\))。评估者:GPT-4o(通过DMXAPI)。任务:8个文本 + 8个文本代理视觉任务(视觉推理的文本描述)。策略:\(|\mathcal{S}|=11\)(8个文本领域 + 3个视觉领域)。轮次:每阶段 \(R=30\)。
设计:受试者内——每个种子使用相同的评估者快照和任务顺序运行未校准和校准TTRL。这控制了评估者版本漂移,这是EPC研究中已知的混杂因素。
控制:
1. **长度归一化**:未校准和校准运行均将执行器响应限制为500个字符,控制输出格式效应。
2. **对称学习率**:\(\alpha_{\text{win}} = \alpha_{\text{lose}} = 0.06\),消除了标准协议的不对称放大。
规模:\(N=5\) 种子 × 2种模式 × 4阶段 × 30轮 × 2项控制 ≈ 2,400轮TTRL(约7,200次GPT-4o API调用)。总成本:约10美元。
##5Results
###5.1Main Finding: Calibration reduces coupling by 23–31%
表1 (https://arxiv.org/html/2606.31371#S5.T1) 报告了主要比较。
表1:未校准 vs. 校准TTRL。DeepSeek-V4-Pro执行器,GLM5.2评估者,\(N=5\) 受试者内。发现:置信度校准TTRL将 \(\gamma_{T\to V}\) 从0.924降低到0.744(−20%),将 \(\gamma_{V\to T}\) 从1.580降低到0.806(−49%)。JSD降低幅度更大:\(T\to V\) 方向−45%,\(V\to T\) 方向−67%。降低是不对称的——在 \(V\to T\) 方向上更强——这与评估者在视觉到文本迁移中产生更不确定的置信度估计一致,此时校准门控过滤掉了更大比例的弱偏好。
###5.2Control 1: Length-normalized responses
作为格式控制,另一组 \(N=5\) 运行将所有执行器响应限制为500个字符,证实降低持续存在(校准后的 \(\bar{\gamma}_{T\to V}=0.768\),\(\bar{\gamma}_{V\to T}=0.821\))。
###5.3Control 2: Symmetric learning rates
标准TTRL使用不对称更新(\(\alpha_{\text{win}} > \alpha_{\text{lose}}\)),这会放大评估者偏好。在对称学习率(\(\alpha=0.06\))下,未校准TTRL产生 \(\bar{\gamma}_{T\to V}=0.868\),\(\bar{\gamma}_{V\to T}=1.024\)。校准TTRL仍然将 \(\gamma\) 降低了14%(\(T\to V\) 方向,降至0.744)和21%(\(V\to T\) 方向,降至0.806),证实该效果并非仅由更新不对称性降低所致。
###5.4Mechanism: Confidence gating
在所有 \(N=5\) 次校准运行中,大约31%的评估者判断的置信度 \(c_t \in [0.4, 0.6]\)。在标准二元TTRL下,这些不确定的判断被四舍五入为赢/输,并贡献全权重更新(\(\pm 0.08 / \pm 0.04\))。在校准TTRL下,不确定的判断产生接近零的更新(\(|2c_t - 1| \approx 0\))。评估者在 \(V\to T\) 迁移上更不确定(平均置信度 \(0.58 \pm 0.14\)),而在 \(T\to V\) 上平均置信度为 \(0.64 \pm 0.12\),这解释了不对称的降低。
##6Discussion
###6.1Why calibration reduces but does not eliminate coupling
23–31%的降低是显著的,但并不完全。残留的耦合可能反映了以高置信度表达的真正评估者偏好——校准正确地将这些偏好识别为有充分依据而非虚假。一个完美校准的评估者仍然会表现出偏好;校准确保这些偏好反映实际评估而非噪声。残留的 \(\gamma \approx 0.8\) 可能代表GPT-4o作为评估者的真实耦合下限——在不更改评估者模型本身的情况下可实现的最小失真。
###6.2Practical recommendations
对于在智能体反馈循环中部署LLM评估者的实践者:
1. **获取置信度,而非二元判断**。将“输出A或B”替换为“A更好的概率是多少 (0.0–1.0)?”
2. **使用置信度加权更新**。将评估者置信度直接映射到更新幅度。
3. **监控残留耦合**。校准可降低但无法消除耦合。相似文章
绘制评估前沿:十一种评估者-代理条件下偏差-可靠性权衡的实证调查
这项实证调查通过测量11种条件下的评估者耦合、策略多样性和小样本可靠性,扩展了先前关于LLM评估中偏差-可靠性权衡的研究,证实了低评估者影响会导致高测量噪声,而强耦合会降低多样性和噪声。
LLM代理中的忠实不确定性:实践中校准与效用权衡
一位从业者讨论了LLM代理中的校准与效用权衡,分享了基于验证器的流水线经验,该流水线将幻觉工具调用减少了约60%,但引入了延迟成本并丢失了简单的正确答案。
EPC:一种用于测量LLM代理系统中评估者偏好动态的标准化协议
本文介绍了EPC,一种用于测量LLM代理系统中评估者偏好耦合的标准化协议,包括参考快照和版本控制约定,以解决可重复性和测量衰减问题。
校准偏好学习:以标签排序为例
本文形式化了概率标签排序的校准定义,引入了校准概念的层次结构,并表明常见模型校准不佳。进一步展示了在RLHF奖励模型中的应用,其中校准与准确性相关但不完全相同。
自我评估已然存在:用极少数据激发基础大语言模型中的潜在评判校准
本文介绍了自我评估激发(SEE)方法,该方法通过校准耦合的强化学习和掩码蒸馏,用极少数据激发基础大语言模型中的潜在评判校准,在保持答案质量的同时提升了跨基准的校准效果。