EPC:一种用于测量LLM代理系统中评估者偏好动态的标准化协议
摘要
本文介绍了EPC,一种用于测量LLM代理系统中评估者偏好耦合的标准化协议,包括参考快照和版本控制约定,以解决可重复性和测量衰减问题。
arXiv:2607.00297v1 Announce Type: new
摘要:当LLM代理在闭环中使用评估者反馈来调整其行为时,评估者的偏差会通过代理的策略分布传播——这种现象称为评估者偏好耦合。先前的工作已在多个评估者家族和模型版本中记录了耦合,但该领域缺乏一种标准化协议,使第三方研究人员能够(i)复现耦合测量,(ii)跨评估者和时间点比较结果,以及(iii)在专有评估者静默更新时检测测量衰减。本文提供了该协议。我们详细说明了EPC(评估者偏好耦合)——一种详细的、类似RFC的协议规范,涵盖四阶段隔离范式,包括执行者和评估者配置、策略和任务设计、TTRL更新规则、指标计算(gamma、JSD、ECE、Brier)以及输出模式。我们为协议提供了一个版本化的参考快照v1.0:来自五项独立研究的八种评估者条件下的耦合测量(N=122个独特的实验重复,涉及GPT-4o、Qwen、DeepSeek等),并附有评估者版本标识符、API端点和测量日期。该快照明确限定了时间:所有值都依赖于特定模型版本,并预计会随着专有评估者的更新而衰减。我们定义了一个版本控制约定(vX.Y-Z,编码协议版本、快照版本和评估者代际),并提供了使用指南,涵盖采用、解释和已知陷阱。该协议、参考快照和实现代码作为开放基础设施发布。
查看缓存全文
缓存时间: 2026/07/02 05:37
# EPC:在LLM智能体系统中测量评估者偏好动态的标准化协议
来源:https://arxiv.org/html/2607.00297
###### 摘要
当LLM智能体在闭环中使用评估者反馈来调整其行为时,评估者的偏差会通过智能体的策略分布传播——这种现象被称为评估者偏好耦合。先前的工作已在多个评估者家族和模型版本中记录了耦合现象,但该领域缺乏一个标准化协议,使得第三方研究人员能够:(i) 复现耦合测量,(ii) 跨评估者和时间点比较结果,以及 (iii) 在专有评估者静默更新时检测测量衰减。本文提供了该协议。我们详细指定了EPC(评估者偏好耦合)——一个RFC风格的协议规范,涵盖四阶段隔离范式,包括执行器和评估器配置、策略与任务设计、TTRL更新规则、指标计算(γ、JSD、ECE、Brier)以及输出方案。我们还附带了一个版本化的参考快照v1.0:来自五项独立研究的八种评估者条件(N=122次独特实验重复,涵盖GPT-4o、Qwen、DeepSeek等)的耦合测量,并附有评估者版本标识符、API端点和测量日期。该快照明确限定了时间范围:所有值均依赖于特定的模型版本,并预计会随着专有评估者的更新而衰减。我们定义了一个版本命名约定(vXX.YY-ZZ,编码协议版本、快照版本和评估者代际),并提供了包含采用、解释和已知陷阱的使用指南。该协议、参考快照和实现代码已作为开放基础设施发布。
## 1 引言
评估者驱动的偏好动态已在多种LLM智能体配置中得到记录(Liu, 2026a; b; c)。在标准设置中,智能体维护一个策略权重分布,接收来自评估者的成对反馈,并通过测试时强化学习(TTRL)进行适应。耦合系数γ和詹森-香农散度(JSD)量化了评估者的偏好跨任务领域转移的强度,以及智能体策略分布的集中程度。
然而,该领域目前缺乏标准化协议。每项研究使用略有不同的协议变体、任务集、策略定义和指标实现。跨研究比较是不可能的。更关键的是,专有评估者会静默更新,导致测量值在数周内衰减(Liu, 2026a)。如果没有版本化的基线和明确的过期日期,文献中会积累对当前模型版本无效的测量值。这个问题并非评估者耦合所独有:最近对26个AI基准的审计发现,基准的中位寿命得分仅为5分(满分100)(BenchRisk, 2026),并且机器学习社区正在转向持续的、版本化的、社区治理的评估基础设施(MLCommons, 2026; SWE-rebench, 2025; HF Community, 2026)。
本文提供了协议、参考快照和版本命名约定。
本文并非声称新的实证发现。它是一份协议规范论文——类似于网络社区的RFC或物理科学中的测量标准。参考快照中的耦合测量已在特定领域的研究中报告过(Liu, 2026a)。我们的贡献在于标准化、版本化和社区基础设施,将这些测量从一次性观察转变为可复现、可比较和可审计的测量系统。我们明确不引入新指标、新实验条件或新科学主张。我们引入的是一种*纪律*——一种使社区能够在评估者模型演化时共同保持时效性的协议。
## 2 协议规范
本节提供完整的EPC协议规范,组织为一份可独立实现的参考文档。
### 2.1 概述
该协议通过一个四阶段隔离范式测量评估者偏好耦合。在阶段1(纯文本),智能体在纯文本任务上进行TTRL。在阶段2(纯视觉),在视觉相关任务上进行。在阶段3(T→V 耦合),智能体从阶段1权重开始,在视觉任务上训练。在阶段4(V→T 耦合),智能体从阶段2权重开始,在文本任务上训练。耦合系数γ_{A→B}量化了权重分布相对于纯领域参考的偏移程度。
### 2.2 智能体配置
- **执行器**:任何可通过API访问的LLM。该协议与执行器无关;参考快照使用DeepSeek-chat。
- **评估者**:任何可通过API访问的LLM。可以是与执行器相同的模型(自我评估)或不同的模型(跨模型评估)。评估者身份必须记录版本标识符(例如,gpt-4o-2024-08-06)、API端点和测量日期。
- **策略**:11个策略(8个文本领域 + 3个视觉领域),定义在附录A.1中。每个策略是一个自然语言提示前缀。
- **协议要求**:策略必须在输出清单中逐字记录。研究人员可替换特定领域的策略,但必须报告完整的策略文本。
### 2.3 TTRL算法
智能体维护一个L1归一化的权重向量 **w** ∈ Δ^{K-1},其中K=11个策略。在每个轮次t:
1. 通过轮盘赌选择采样策略 s_t ~ **w**。
2. 执行器在 s_t 和固定基线 s_0(step_by_step)下生成响应。
3. 评估者进行成对比较:偏好 s_t(胜,r_t=1)或 s_0(负,r_t=0)。
4. 权重更新:w_{s_t} ← max(0.001, w_{s_t} + α),其中如果胜α=0.08,如果负α=-0.04。重新归一化使得总和为1。
**协议要求**:(a) 基线策略 s_0 必须是 step_by_step。(b) 学习率 α_{win}=0.08、α_{lose}=0.04 是固定的。报告任何偏差。(c) 权重下限为0.001。(d) 每阶段R=30轮次。报告轮次数的变化。(e) 必须记录随机种子。
### 2.4 任务设计
**协议要求**:(a) 最少8个文本领域任务和8个视觉相关任务。(b) 任务必须在输出清单中逐字记录。(c) 参考快照使用附录A.2中的任务集。研究人员可替换特定领域的任务,但必须完整报告。
### 2.5 指标计算
**γ(耦合系数)**:
γ_{A→B} = || **w**_{A→B} - **w**_{B} ||_2 / || **w**_{B} ||_2 (1)
其中 **w**_{B} 是纯领域权重向量,**w**_{A→B} 是耦合后的向量。
**JSD(詹森-香农散度)**:以e为底计算 **w**_{T→V} 与 **w**_{V} 之间(针对T→V耦合)以及 **w**_{V→T} 与 **w**_{T} 之间(针对V→T耦合)。
**ECE(预期校准误差)**:可选。将策略按评估者胜率分箱,测量每个箱子内的|mean(win_rate) - mean(accuracy)|。需要真实任务准确率。
**Brier分数**:可选。各策略胜率与准确率的均方误差。
**协议要求**:(a) γ 是最低必需指标。(b) 若存储了权重向量,则必须报告JSD。(c) ECE和Brier是可选的,但推荐使用。(d) 报告每个种子的值,而不仅仅是平均值。(e) 报告零耦合率(γ=0的种子百分比)。(f) 报告γ和JSD均值的95%自助法置信区间(在种子层面进行2000次重采样)。(g) 建议初始筛选使用N≥10个种子,对于目标置信区间宽度为γ≤0.1的发表级估计使用N≥30个种子。参考快照报告每个条件下的N值,以便进行样本量感知的解释。
### 2.6 评估者提示规范
评估者的成对比较提示必须在输出清单中逐字包含。参考实现使用:
> 评估。任务:{task} A({strategy_name}):{response_A[:300]} B(step_by_step):{response_B[:300]} 更好?仅输出A或B。
**协议要求**:(a) 评估者提示必须在清单中记录。(b) 必须报告解码设置(温度、最大token数、top-p、停止序列)。参考实现使用temperature=0.0、max_tokens=10。(c) 如果评估者输出无法解析为“A”或“B”,该试验必须记录为平局并从权重更新中排除,并在清单中报告平局率。(d) 必须禁用评估者输出中的思维链或推理前缀(temperature=0.0,无鼓励解释的系统提示)。修改提示或解码设置的研究者必须将其结果标记为EPC-v1.0-AltPrompt。
### 2.7 设计原理
**为什么γ使用除以||w_B||_2的L2归一化**。L2范数保留了概率单纯形上的欧几里得几何,并且可直接解释为相对距离。虽然有界散度(JSD、总变差、海林格)在跨条件比较时更稳健,但我们经验性的γ-JSD相关性(在N=152个配对观测中r=0.969)证实,γ在实践中忠实地追踪JSD。协议将γ作为最低指标,并强烈推荐在跨条件报告中使用JSD。研究人员可替换替代的距离度量,但必须同时报告γ值以保证可比性。
**为什么α_{win}=0.08、α_{lose}=0.04**。这些值是为了平衡学习速度与稳定性而选择的:不对称性(α_{win} > α_{lose})反映了保守的先验,即评估者偏好是有噪声的,并且假阳性(奖励了评估者并非真正偏好的策略)应该比假阴性得到更积极的修正。这些具体值是在先前工作中校准的(Liu, 2026a),以在R=30轮次内产生可测量的集中度(PCI ≈ 0.5–1.5),而不会过早坍缩到单一策略。**尚未进行系统的超参数敏感性分析**。对称学习率变体(α_{win}=α_{lose}=0.06)已在GPT-4o上测试,并在所有8次重复中产生了零耦合——但这一结果恰好与一个记录的评估者版本漂移窗口重合,如果没有版本锁定的复制,不能单独归因于学习率。协议鼓励研究者探索α空间,并将替代设置报告为EPC-v1.0-AltLR。0.001的下限防止了权重饥饿(策略变得不可选择),同时对最终权重分布影响甚微。
### 2.8 一致性与可扩展性
**一致性测试套件**。协议实现附带了一个参考测试套件,包含模拟评估者(确定性、掷硬币、脚本化偏好)。该测试套件验证独立的实现在固定输入序列上产生相同的γ和JSD值,覆盖边缘情况(所有权重在下限、均匀初始分布、单一策略主导、完全平局)。通过一致性套件的实现有资格标记为EPC-v1.0-compatible。
**协议变体**。该协议设计为可扩展的。修改核心参数(学习率、基线策略、轮次数、策略集)的研究者必须使用变体标签(例如,EPC-v1.0-AltLR、EPC-v1.0-AltBaseline)标记其结果,并在清单中报告与参考规范的所有偏差。这允许社区在探索替代配置的同时,通过核心一致性路径保持可比性。
每个EPC测量必须生成一个机器可读的清单,包含:
1. 协议版本:EPC-v1.0
2. 评估者:模型标识符、API端点、测量日期(YYYY-MM-DD)
3. 执行器:模型标识符、API端点
4. 配置:R、α_{win}、α_{lose}、随机种子、策略数量
5. 任务集:逐字任务列表
6. 策略集:逐字策略提示
7. 结果:每个种子的γ_{T→V}、γ_{V→T}、JSD(如可用)、零耦合率、权重向量(强烈推荐)
协议实现中提供了一个JSON模式(epc_manifest_schema.json)。
## 3 参考快照v1.0
本节提供v1.0参考基线,来源于2026年5月至6月间五项独立研究的测量(Liu, 2026a)。所有值均**版本绑定**,并预期会衰减。
表1:EPC参考快照v1.0——跨模型评估条件。所有测量于2026年5月至6月。值预计随评估者模型更新而失效。表2:EPC参考快照v1.0——多网关复制(2026年6月27日)。表3:EPC参考快照v1.0——校准基线(自我评估,N=10,R=16)。
### 3.1 快照有效性声明
这些值是在2026年5月27日至6月27日之间测量的。GPT-4o的测量是通过第三方API网关(api2d、DMXAPI)获得的,尚未通过直接OpenAI API进行复制。Qwen的测量在同一个提供商生态系统中使用不同的模型版本(qwen3.7-plus vs. qwen-plus)。所有值都是依赖于特定、现已弃用的模型版本的快照测量。GPT-4o在5月至6月的漂移(表1,行1和行4)表明,耦合测量可能在4周内发生反转。此快照的用户必须检查上面列出的评估者版本是否仍然是最新的。
## 4 版本命名约定
EPC基线遵循一个三部分版本命名方案:
vX.Y-Z
其中:
- X:协议主版本。当有不兼容的协议更改时递增。
- Y:快照版本。当对同一评估者有新的测量时递增。
- Z:评估者代际。编码评估者模型代际(例如,GPT4o-0806、Qwen3.7-0526)。
示例:v1.2-GPT4o-0806 = EPC协议v1,GPT-4o的第二个快照(2024年8月检查点)。
社区贡献的快照遵循相同的约定。协议实现中附带了一个提交模板。
## 5 使用指南
### 5.1 采用
1. 克隆协议实现仓库。
2.相似文章
Agent 评估:详细指南(53 分钟阅读)
关于评估基于 LLM 的 Agent 系统的全面指南,涵盖基本概念、评估框架以及来自近期基准测试的案例研究。
校准评估者:概率校准能否缓解LLM代理反馈循环中的偏好耦合?
本文首次研究了概率校准作为缓解LLM代理反馈循环中评估者偏好耦合的方法,结果表明校准后的评估者判断将耦合系数降低了20-49%,散度降低了45-67%。
绘制评估前沿:十一种评估者-代理条件下偏差-可靠性权衡的实证调查
这项实证调查通过测量11种条件下的评估者耦合、策略多样性和小样本可靠性,扩展了先前关于LLM评估中偏差-可靠性权衡的研究,证实了低评估者影响会导致高测量噪声,而强耦合会降低多样性和噪声。
MetaEvo: 一种用于经验驱动型智能体持续进化的元优化框架
MetaEvo 提出了一种两阶段框架,用于基于LLM的智能体的持续进化,利用基于偏好的优化来增强原则抽象和用于经验重用的模块化架构,在推理基准测试上优于强基线。
当规划正确执行却失败时:论基于LLM的多智能体系统的认知校准
本文识别了基于LLM的多智能体系统中的一种失败模式,即由于智能体错误判断自身知识(认知校准不当)而导致规划失败,并提出EPC-AW工作流,通过信息一致性和认知状态细化将系统级成功率提升9.75%。