EPC：一种用于测量LLM代理系统中评估者偏好动态的标准化协议

arXiv cs.LG 2026/07/02 04:00 论文

llm evaluator-preference-coupling protocol reproducibility agent-systems evaluation

摘要

本文介绍了EPC，一种用于测量LLM代理系统中评估者偏好耦合的标准化协议，包括参考快照和版本控制约定，以解决可重复性和测量衰减问题。

arXiv:2607.00297v1 Announce Type: new 摘要：当LLM代理在闭环中使用评估者反馈来调整其行为时，评估者的偏差会通过代理的策略分布传播——这种现象称为评估者偏好耦合。先前的工作已在多个评估者家族和模型版本中记录了耦合，但该领域缺乏一种标准化协议，使第三方研究人员能够（i）复现耦合测量，（ii）跨评估者和时间点比较结果，以及（iii）在专有评估者静默更新时检测测量衰减。本文提供了该协议。我们详细说明了EPC（评估者偏好耦合）——一种详细的、类似RFC的协议规范，涵盖四阶段隔离范式，包括执行者和评估者配置、策略和任务设计、TTRL更新规则、指标计算（gamma、JSD、ECE、Brier）以及输出模式。我们为协议提供了一个版本化的参考快照v1.0：来自五项独立研究的八种评估者条件下的耦合测量（N=122个独特的实验重复，涉及GPT-4o、Qwen、DeepSeek等），并附有评估者版本标识符、API端点和测量日期。该快照明确限定了时间：所有值都依赖于特定模型版本，并预计会随着专有评估者的更新而衰减。我们定义了一个版本控制约定（vX.Y-Z，编码协议版本、快照版本和评估者代际），并提供了使用指南，涵盖采用、解释和已知陷阱。该协议、参考快照和实现代码作为开放基础设施发布。

查看原文

查看缓存全文

缓存时间: 2026/07/02 05:37

# EPC：在LLM智能体系统中测量评估者偏好动态的标准化协议
来源：https://arxiv.org/html/2607.00297
###### 摘要

当LLM智能体在闭环中使用评估者反馈来调整其行为时，评估者的偏差会通过智能体的策略分布传播——这种现象被称为评估者偏好耦合。先前的工作已在多个评估者家族和模型版本中记录了耦合现象，但该领域缺乏一个标准化协议，使得第三方研究人员能够：(i) 复现耦合测量，(ii) 跨评估者和时间点比较结果，以及 (iii) 在专有评估者静默更新时检测测量衰减。本文提供了该协议。我们详细指定了EPC（评估者偏好耦合）——一个RFC风格的协议规范，涵盖四阶段隔离范式，包括执行器和评估器配置、策略与任务设计、TTRL更新规则、指标计算（γ、JSD、ECE、Brier）以及输出方案。我们还附带了一个版本化的参考快照v1.0：来自五项独立研究的八种评估者条件（N=122次独特实验重复，涵盖GPT-4o、Qwen、DeepSeek等）的耦合测量，并附有评估者版本标识符、API端点和测量日期。该快照明确限定了时间范围：所有值均依赖于特定的模型版本，并预计会随着专有评估者的更新而衰减。我们定义了一个版本命名约定（vXX.YY-ZZ，编码协议版本、快照版本和评估者代际），并提供了包含采用、解释和已知陷阱的使用指南。该协议、参考快照和实现代码已作为开放基础设施发布。

## 1 引言

评估者驱动的偏好动态已在多种LLM智能体配置中得到记录（Liu, 2026a; b; c）。在标准设置中，智能体维护一个策略权重分布，接收来自评估者的成对反馈，并通过测试时强化学习（TTRL）进行适应。耦合系数γ和詹森-香农散度（JSD）量化了评估者的偏好跨任务领域转移的强度，以及智能体策略分布的集中程度。

然而，该领域目前缺乏标准化协议。每项研究使用略有不同的协议变体、任务集、策略定义和指标实现。跨研究比较是不可能的。更关键的是，专有评估者会静默更新，导致测量值在数周内衰减（Liu, 2026a）。如果没有版本化的基线和明确的过期日期，文献中会积累对当前模型版本无效的测量值。这个问题并非评估者耦合所独有：最近对26个AI基准的审计发现，基准的中位寿命得分仅为5分（满分100）（BenchRisk, 2026），并且机器学习社区正在转向持续的、版本化的、社区治理的评估基础设施（MLCommons, 2026; SWE-rebench, 2025; HF Community, 2026）。

本文提供了协议、参考快照和版本命名约定。

本文并非声称新的实证发现。它是一份协议规范论文——类似于网络社区的RFC或物理科学中的测量标准。参考快照中的耦合测量已在特定领域的研究中报告过（Liu, 2026a）。我们的贡献在于标准化、版本化和社区基础设施，将这些测量从一次性观察转变为可复现、可比较和可审计的测量系统。我们明确不引入新指标、新实验条件或新科学主张。我们引入的是一种*纪律*——一种使社区能够在评估者模型演化时共同保持时效性的协议。

## 2 协议规范

本节提供完整的EPC协议规范，组织为一份可独立实现的参考文档。

### 2.1 概述

该协议通过一个四阶段隔离范式测量评估者偏好耦合。在阶段1（纯文本），智能体在纯文本任务上进行TTRL。在阶段2（纯视觉），在视觉相关任务上进行。在阶段3（T→V 耦合），智能体从阶段1权重开始，在视觉任务上训练。在阶段4（V→T 耦合），智能体从阶段2权重开始，在文本任务上训练。耦合系数γ_{A→B}量化了权重分布相对于纯领域参考的偏移程度。

### 2.2 智能体配置

- **执行器**：任何可通过API访问的LLM。该协议与执行器无关；参考快照使用DeepSeek-chat。
- **评估者**：任何可通过API访问的LLM。可以是与执行器相同的模型（自我评估）或不同的模型（跨模型评估）。评估者身份必须记录版本标识符（例如，gpt-4o-2024-08-06）、API端点和测量日期。
- **策略**：11个策略（8个文本领域 + 3个视觉领域），定义在附录A.1中。每个策略是一个自然语言提示前缀。
- **协议要求**：策略必须在输出清单中逐字记录。研究人员可替换特定领域的策略，但必须报告完整的策略文本。

### 2.3 TTRL算法

智能体维护一个L1归一化的权重向量 **w** ∈ Δ^{K-1}，其中K=11个策略。在每个轮次t：

1. 通过轮盘赌选择采样策略 s_t ~ **w**。
2. 执行器在 s_t 和固定基线 s_0（step_by_step）下生成响应。
3. 评估者进行成对比较：偏好 s_t（胜，r_t=1）或 s_0（负，r_t=0）。
4. 权重更新：w_{s_t} ← max(0.001, w_{s_t} + α)，其中如果胜α=0.08，如果负α=-0.04。重新归一化使得总和为1。

**协议要求**：(a) 基线策略 s_0 必须是 step_by_step。(b) 学习率 α_{win}=0.08、α_{lose}=0.04 是固定的。报告任何偏差。(c) 权重下限为0.001。(d) 每阶段R=30轮次。报告轮次数的变化。(e) 必须记录随机种子。

### 2.4 任务设计

**协议要求**：(a) 最少8个文本领域任务和8个视觉相关任务。(b) 任务必须在输出清单中逐字记录。(c) 参考快照使用附录A.2中的任务集。研究人员可替换特定领域的任务，但必须完整报告。

### 2.5 指标计算

**γ（耦合系数）**：

γ_{A→B} = || **w**_{A→B} - **w**_{B} ||_2 / || **w**_{B} ||_2 (1)

其中 **w**_{B} 是纯领域权重向量，**w**_{A→B} 是耦合后的向量。

**JSD（詹森-香农散度）**：以e为底计算 **w**_{T→V} 与 **w**_{V} 之间（针对T→V耦合）以及 **w**_{V→T} 与 **w**_{T} 之间（针对V→T耦合）。

**ECE（预期校准误差）**：可选。将策略按评估者胜率分箱，测量每个箱子内的|mean(win_rate) - mean(accuracy)|。需要真实任务准确率。

**Brier分数**：可选。各策略胜率与准确率的均方误差。

**协议要求**：(a) γ 是最低必需指标。(b) 若存储了权重向量，则必须报告JSD。(c) ECE和Brier是可选的，但推荐使用。(d) 报告每个种子的值，而不仅仅是平均值。(e) 报告零耦合率（γ=0的种子百分比）。(f) 报告γ和JSD均值的95%自助法置信区间（在种子层面进行2000次重采样）。(g) 建议初始筛选使用N≥10个种子，对于目标置信区间宽度为γ≤0.1的发表级估计使用N≥30个种子。参考快照报告每个条件下的N值，以便进行样本量感知的解释。

### 2.6 评估者提示规范

评估者的成对比较提示必须在输出清单中逐字包含。参考实现使用：

> 评估。任务：{task} A（{strategy_name}）：{response_A[:300]} B（step_by_step）：{response_B[:300]} 更好？仅输出A或B。

**协议要求**：(a) 评估者提示必须在清单中记录。(b) 必须报告解码设置（温度、最大token数、top-p、停止序列）。参考实现使用temperature=0.0、max_tokens=10。(c) 如果评估者输出无法解析为“A”或“B”，该试验必须记录为平局并从权重更新中排除，并在清单中报告平局率。(d) 必须禁用评估者输出中的思维链或推理前缀（temperature=0.0，无鼓励解释的系统提示）。修改提示或解码设置的研究者必须将其结果标记为EPC-v1.0-AltPrompt。

### 2.7 设计原理

**为什么γ使用除以||w_B||_2的L2归一化**。L2范数保留了概率单纯形上的欧几里得几何，并且可直接解释为相对距离。虽然有界散度（JSD、总变差、海林格）在跨条件比较时更稳健，但我们经验性的γ-JSD相关性（在N=152个配对观测中r=0.969）证实，γ在实践中忠实地追踪JSD。协议将γ作为最低指标，并强烈推荐在跨条件报告中使用JSD。研究人员可替换替代的距离度量，但必须同时报告γ值以保证可比性。

**为什么α_{win}=0.08、α_{lose}=0.04**。这些值是为了平衡学习速度与稳定性而选择的：不对称性（α_{win} > α_{lose}）反映了保守的先验，即评估者偏好是有噪声的，并且假阳性（奖励了评估者并非真正偏好的策略）应该比假阴性得到更积极的修正。这些具体值是在先前工作中校准的（Liu, 2026a），以在R=30轮次内产生可测量的集中度（PCI ≈ 0.5–1.5），而不会过早坍缩到单一策略。**尚未进行系统的超参数敏感性分析**。对称学习率变体（α_{win}=α_{lose}=0.06）已在GPT-4o上测试，并在所有8次重复中产生了零耦合——但这一结果恰好与一个记录的评估者版本漂移窗口重合，如果没有版本锁定的复制，不能单独归因于学习率。协议鼓励研究者探索α空间，并将替代设置报告为EPC-v1.0-AltLR。0.001的下限防止了权重饥饿（策略变得不可选择），同时对最终权重分布影响甚微。

### 2.8 一致性与可扩展性

**一致性测试套件**。协议实现附带了一个参考测试套件，包含模拟评估者（确定性、掷硬币、脚本化偏好）。该测试套件验证独立的实现在固定输入序列上产生相同的γ和JSD值，覆盖边缘情况（所有权重在下限、均匀初始分布、单一策略主导、完全平局）。通过一致性套件的实现有资格标记为EPC-v1.0-compatible。

**协议变体**。该协议设计为可扩展的。修改核心参数（学习率、基线策略、轮次数、策略集）的研究者必须使用变体标签（例如，EPC-v1.0-AltLR、EPC-v1.0-AltBaseline）标记其结果，并在清单中报告与参考规范的所有偏差。这允许社区在探索替代配置的同时，通过核心一致性路径保持可比性。

每个EPC测量必须生成一个机器可读的清单，包含：

1. 协议版本：EPC-v1.0
2. 评估者：模型标识符、API端点、测量日期（YYYY-MM-DD）
3. 执行器：模型标识符、API端点
4. 配置：R、α_{win}、α_{lose}、随机种子、策略数量
5. 任务集：逐字任务列表
6. 策略集：逐字策略提示
7. 结果：每个种子的γ_{T→V}、γ_{V→T}、JSD（如可用）、零耦合率、权重向量（强烈推荐）

协议实现中提供了一个JSON模式（epc_manifest_schema.json）。

## 3 参考快照v1.0

本节提供v1.0参考基线，来源于2026年5月至6月间五项独立研究的测量（Liu, 2026a）。所有值均**版本绑定**，并预期会衰减。

表1：EPC参考快照v1.0——跨模型评估条件。所有测量于2026年5月至6月。值预计随评估者模型更新而失效。表2：EPC参考快照v1.0——多网关复制（2026年6月27日）。表3：EPC参考快照v1.0——校准基线（自我评估，N=10，R=16）。

### 3.1 快照有效性声明

这些值是在2026年5月27日至6月27日之间测量的。GPT-4o的测量是通过第三方API网关（api2d、DMXAPI）获得的，尚未通过直接OpenAI API进行复制。Qwen的测量在同一个提供商生态系统中使用不同的模型版本（qwen3.7-plus vs. qwen-plus）。所有值都是依赖于特定、现已弃用的模型版本的快照测量。GPT-4o在5月至6月的漂移（表1，行1和行4）表明，耦合测量可能在4周内发生反转。此快照的用户必须检查上面列出的评估者版本是否仍然是最新的。

## 4 版本命名约定

EPC基线遵循一个三部分版本命名方案：

vX.Y-Z

其中：

- X：协议主版本。当有不兼容的协议更改时递增。
- Y：快照版本。当对同一评估者有新的测量时递增。
- Z：评估者代际。编码评估者模型代际（例如，GPT4o-0806、Qwen3.7-0526）。

示例：v1.2-GPT4o-0806 = EPC协议v1，GPT-4o的第二个快照（2024年8月检查点）。

社区贡献的快照遵循相同的约定。协议实现中附带了一个提交模板。

## 5 使用指南

### 5.1 采用

1. 克隆协议实现仓库。
2.

EPC：一种用于测量LLM代理系统中评估者偏好动态的标准化协议

相似文章

Agent 评估：详细指南（53 分钟阅读）

校准评估者：概率校准能否缓解LLM代理反馈循环中的偏好耦合？

绘制评估前沿：十一种评估者-代理条件下偏差-可靠性权衡的实证调查

MetaEvo: 一种用于经验驱动型智能体持续进化的元优化框架

当规划正确执行却失败时：论基于LLM的多智能体系统的认知校准

提交意见反馈