PoQ-Judge:一种面向去中心化LLM推理中成本感知质量证明的多架构评估框架

arXiv cs.CL 论文

摘要

介绍了PoQ-Judge,一种采用无参考评判模型(TextCNN、MiniLM、DeBERTa)的多架构评估框架,用于去中心化LLM推理中的成本感知质量证明,实现了与地面真值代理的高相关性,同时消除了对参考答案的需求。

arXiv:2606.11196v1 公告类型:新 摘要:去中心化LLM推理网络需要轻量级、无参考的质量评估用于Proof of Quality(PoQ)。我们提出PoQ-Judge,这是一个训练专用评判模型来对查询-输出对进行评分而无需地面真值参考的框架。我们研究了三种架构在质量与成本权衡下的表现:TextCNN评判模型、MiniLM交叉编码器以及DeBERTa评判模型。通过在UltraFeedback和GPT标注的域内数据上进行两阶段训练,最佳模型在留出测试集上与地面真值代理达到了0.747的皮尔逊相关系数,超越了以往基于参考的评估器。作为复合评分中的无参考组件,它实现了0.645的皮尔逊相关系数,与最佳单一基于参考的评估器相当,同时消除了对参考答案的需求。我们还展示了在线校准将语义质量识别为主导维度,并且级联评估将成本降低了72.7%,而质量损失很小。在问答任务上的结果远强于摘要任务,这表明代理质量是主要剩余局限。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:34

# 去中心化LLM推理中面向成本感知的质量证明的多架构评估框架

**来源:** https://arxiv.org/html/2606.11196

**作者:** Arther Tian^a^, Alex Ding^a,\*^, Frank Chen^a^ Simon Wu^a^, Aaron Chan^a^

**机构:** ^a^DGrid AI

**通讯作者:** alex\.ding@dgrid\.ai

###### 摘要

去中心化大规模语言模型(LLM)推理网络需要轻量级质量评估来推动共识和基于质量证明(PoQ)的奖励分配。先前的工作建立了成本感知的PoQ、通过自适应信任权重实现对抗鲁棒性以及多维度质量评分,但最强的质量维度依赖于基于参考的语义相似度——这是一种在推理时不存在真实答案时无法获得的信号。本文介绍了**PoQ-Judge**,一个多架构评估框架,它训练专用的无参考评判模型,在不访问参考答案的情况下对查询-输出对进行评分。我们设计了三种覆盖质量-成本帕累托前沿的评判架构:TextCNN评判器(约1000万参数,亚毫秒延迟)、MiniLM交叉编码器评判器(2200万参数)和DeBERTa评判器(1.84亿参数)。所有评判器均通过两阶段流程训练:先在UltraFeedback语料库上进行预训练,然后在包含问答和摘要任务的GPT标注领域内数据上进行微调。在留出测试集(n=300)上,DeBERTa评判器与真实代理的皮尔逊相关系数达到0.747(95% CI [0.663, 0.816]),超过了我们先前框架中所有基于参考的评估器。当作为复合评分中的无参考维度集成时,生成的信号达到了0.645的皮尔逊相关度——与最佳单一基于参考的评估器相当,且无需参考答案。我们进一步研究了通过基于梯度的权重学习进行在线维度校准,该方法正确识别语义质量为优势维度(学习到的权重为初始值的4.7倍),以及实现了72.7%成本节省且质量适度降低的级联评估协议。实验揭示了尖锐的任务依赖性——问答任务的皮尔逊系数达到0.830,而摘要任务下降至0.199——突显了真实代理的局限性是主要未解决问题。

## 1 引言

去中心化LLM推理已成为在受限和异构计算下扩展语言模型服务的实际方向。Petals等系统展示了跨分布式参与者的协作推理的可行性[5](https://arxiv.org/html/2606.11196#bib.bib5),而包括分页注意力和IO感知注意力在内的服务优化表明,即使在集中部署中,吞吐量和内存效率仍然是主要瓶颈[24,10](https://arxiv.org/html/2606.11196#bib.bib28, https://arxiv.org/html/2606.11196#bib.bib29)。在去中心化环境中,一个基本挑战是**验证输出质量并定价**:参与者贡献不同的模型、硬件和服务策略,网络必须分配反映产出结果有用性的奖励,而不依赖重量级的加密证明[32,3](https://arxiv.org/html/2606.11196#bib.bib31, https://arxiv.org/html/2606.11196#bib.bib30)。质量证明(PoQ)通过使用轻量级评估器模型对输出进行评分并推动基于共识的激励机制来解决这一挑战[44](https://arxiv.org/html/2606.11196#bib.bib4)。

我们先前的工作分三个阶段发展了这一方向。首先,成本感知的PoQ将显式的基于延迟的成本信号引入奖励计算,共同优化输出质量和评估效率[39](https://arxiv.org/html/2606.11196#bib.bib1)。其次,自适应鲁棒PoQ集成了拜占庭弹性聚合和自适应信任权重,以容忍恶意或不可靠的评估器[41](https://arxiv.org/html/2606.11196#bib.bib2)。第三,多维度质量评分框架将评估分解为可解释的维度——模型先验、结构质量、语义相似度、查询-输出对齐和评估器一致性——并表明校准后的复合评分可以匹配或超过单一评估器基线[40](https://arxiv.org/html/2606.11196#bib.bib3)。

然而,多维度框架暴露了一个关键的部署缺口。最强且最可靠的维度——基于句子嵌入相似度的语义质量——需要访问参考答案来计算其分数。在实时的去中心化推理网络中,参考答案通常不可用:用户提交查询并接收输出,但没有用于比较的真实响应。不需要参考的预训练评估器,如基于NLI的交叉编码器,被发现与真实质量的相关性较差甚至为负,使其不适合作为独立的质量信号[40](https://arxiv.org/html/2606.11196#bib.bib3)。这造成了一种紧张局面:PoQ最需要的评估信号——一个可靠的、无参考的质量分数——正是现成指标无法提供的信号。

与此同时,LLM-as-a-Judge范式表明,语言模型在被提示或微调后可以作为有效的评估器[46,28](https://arxiv.org/html/2606.11196#bib.bib10, https://arxiv.org/html/2606.11196#bib.bib24)。Prometheus等系统证明,开源模型可以专门用于评估,与人类具有强相关性[20,21](https://arxiv.org/html/2606.11196#bib.bib21, https://arxiv.org/html/2606.11196#bib.bib22)。然而,这些方法通常使用数十亿参数的模型,导致延迟和成本与PoQ风格评估的效率要求相冲突——在每个共识轮次中需要对数千个输出进行评分。

本文介绍了**PoQ-Judge**,一个多架构评估框架,通过专门为去中心化推理质量评估训练的轻量级评判模型来弥合无参考缺口。我们的关键见解是,PoQ中的评估任务——为(查询,输出)对在连续质量尺度上评分——可以被视为一个回归问题,并由紧凑的编码器模型解决,无需数十亿参数评判器的生成能力。我们设计了三种覆盖质量-成本帕累托前沿的评判架构:

*   **TextCNN评判器**(约1000万参数):一种卷积架构[22](https://arxiv.org/html/2606.11196#bib.bib38),提供亚毫秒推理,适用于高吞吐量或成本受限的评估层级。
*   **MiniLM评判器**(2200万参数):基于蒸馏Transformer骨干[36](https://arxiv.org/html/2606.11196#bib.bib17)构建的交叉编码器,平衡质量和延迟。
*   **DeBERTa评判器**(1.84亿参数):一种解耦注意力编码器[15,14](https://arxiv.org/html/2606.11196#bib.bib19, https://arxiv.org/html/2606.11196#bib.bib20),针对最高准确率层级。

所有三个评判器均通过两阶段流程训练:在UltraFeedback语料库[9](https://arxiv.org/html/2606.11196#bib.bib23)上进行广泛预训练,然后在我们PoQ任务分布的GPT标注数据上进行针对性微调。训练好的评判器随后作为新的无参考维度集成到Tian等人[40](https://arxiv.org/html/2606.11196#bib.bib3)的多维度复合评分框架中。

*用户查询 q + 输出 y_i*
*UltraFeedback(4.5万样本)* → *GPT标注领域数据(1400训练)* → **第一阶段:预训练** → **第二阶段:微调** → **PoQ-Judge模型(无参考)** [TextCNN 1000万/1ms; MiniLM 2200万/13ms; DeBERTa 1.84亿/15ms]

*复合质量分数 ŝ(q,y_i)*
*先验 + 结构*
*语义 + 对齐(若参考可用)*
→ **PoQ共识 + 奖励分配**
*在线校准*
*级联协议*

图1: PoQ-Judge框架概述。三种评判架构通过两阶段流程(顶部)训练,并部署为无参考质量维度(中部)。评判分数与结构先验以及可选的基于参考的维度相结合,形成复合质量信号,用于PoQ共识和奖励分配(底部)。在线校准在部署期间调整维度权重,级联协议支持成本感知的提前停止。

图1(https://arxiv.org/html/2606.11196#S1.F1)展示了完整框架。训练好的评判器提供无参考质量分数,与结构先验以及在可用时基于参考的语义维度集成,形成与PoQ聚合和激励机制兼容的复合信号。两个额外的部署机制——通过基于梯度的权重学习进行在线维度校准,以及用于成本感知提前停止的级联评估协议——进一步使框架适应去中心化推理的操作约束。

我们的主要实验结果如下。在涵盖问答和摘要任务的300个样本的留出测试集上,DeBERTa评判器与真实质量代理的皮尔逊相关系数达到0.747(95%自助法CI [0.663, 0.816]),超过了我们先前框架中最佳基于参考的评估器(sts_paraphrase: 0.629)。无参考复合评分模式,将评判器分数与结构先验结合,达到了皮尔逊0.645——与最强的单一基于参考的评估器相当,且无需参考答案。基于梯度的在线校准正确识别语义质量为优势维度,将其权重分配为初始值的4.7倍,同时将不可靠的维度抑制到接近零。我们还观察到尖锐的任务依赖性:问答皮尔逊系数达到0.830,而摘要皮尔逊系数下降至0.199,这主要归因于摘要任务中token级F1真实代理的局限性[27,23](https://arxiv.org/html/2606.11196#bib.bib15, https://arxiv.org/html/2606.11196#bib.bib26)。最后,TextCNN评判器在皮尔逊0.472时提供亚毫秒延迟,为高吞吐量部署建立了一个可行的低成本评估层级。

#### 贡献。
本文做出以下贡献。

*   我们引入了**PoQ-Judge**,一个用于去中心化LLM推理的多架构无参考评估框架,通过两阶段流程训练了三种评判模型(TextCNN, MiniLM, DeBERTa),将广泛的评估知识迁移到PoQ任务分布。
*   我们提供了跨评判架构的**质量-成本帕累托分析**,附带自助法置信区间,表明DeBERTa评判器(皮尔逊0.747)超过了基于参考的基线,而TextCNN评判器(<1ms)则支持成本敏感的评估层级。
*   我们证明**无参考复合评分**(皮尔逊0.645)与最佳单一基于参考的评估器相当,弥合了我们先前多维度框架中确定的部署缺口[40](https://arxiv.org/html/2606.11196#bib.bib3)。
*   我们研究了通过EMA、Bandit和梯度策略进行的**在线维度校准**,表明基于梯度的权重学习恢复了与离线可靠性分析一致的可解释维度排名。
*   我们设计了一个**级联评估协议**,通过将置信样本路由到轻量级结构检查,并为不确定案例保留完整评估,可实现高达72.7%的成本节省。

#### 论文组织。
第2节(https://arxiv.org/html/2606.11196#S2)回顾PoQ和无参考评估缺口。第3节(https://arxiv.org/html/2606.11196#S3)介绍PoQ-Judge框架,包括评判架构、训练流程、复合集成、在线校准和级联评估。第4节(https://arxiv.org/html/2606.11196#S4)描述实验设置。第5节(https://arxiv.org/html/2606.11196#S5)报告关于评判器质量、任务依赖性、复合评分、校准和级联权衡的结果。第6节(https://arxiv.org/html/2606.11196#S6)讨论发现和局限性。第7节(https://arxiv.org/html/2606.11196#S7)和第8节(https://arxiv.org/html/2606.11196#S8)介绍相关工作并总结。

## 2 背景与问题设定

本节总结我们先前工作中发展的PoQ框架,并阐述促使当前研究的无参考评估缺口。我们保持回顾简洁;成本感知奖励、鲁棒聚合和多维度评分的详细公式分别见Tian等人[39,41,40](https://arxiv.org/html/2606.11196#bib.bib1, https://arxiv.org/html/2606.11196#bib.bib2, https://arxiv.org/html/2606.11196#bib.bib3)。

### 2.1 去中心化推理的质量证明

#### 系统模型。
我们考虑一个去中心化推理网络,包含一组提供LLM输出的推理节点 $\mathcal{I}$ 和一组对这些输出进行评分的评估节点 $\mathcal{E}$。对于用户查询 $q$,推理节点 $i$ 产生候选输出 $y_i$。每个评估器 $e$ 计算一个分数 $s_e(q, y_i) \in [0,10]$,反映感知到的质量。分数被聚合为一个共识估计 $\hat{s}(q, y_i)$,用于驱动对推理节点的奖励分配 $\pi(i)$。对于大规模实时服务,加密验证推理正确性仍然成本高昂[32,3](https://arxiv.org/html/2606.11196#bib.bib31, https://arxiv.org/html/2606.11196#bib.bib30),这使得基于评估器的统计验证成为实际替代方案[44](https://arxiv.org/html/2606.11196#bib.bib4)。

#### 成本感知的PoQ。
我们对PoQ的第一个扩展通过将基于延迟的成本信号引入奖励函数来表达显式的成本感知[39](https://arxiv.org/html/2606.11196#bib.bib1)。设 $c_i$ 为节点 $i$ 的归一化推理成本,$c_e$ 为评估器 $e$ 的评估成本。奖励函数平衡输出质量与成本:

$$
\pi(i) = f\!\left(\hat{s}(q, y_i),\; c_i\right) \tag{1}
$$

其中 $f$ 惩罚低质量并奖励成本效率,确保产生可比质量的更便宜节点获得适当激励。评估节点同样根据其与共识的接近程度及其评估成本获得奖励。

#### 自适应鲁棒PoQ。
在开放参与网络中,评估器可能是有噪声的、有偏见的或对抗性的。我们的第二个扩展通过鲁棒聚合规则——中位数、修剪均值和自适应加权共识——来解决这个问题,这些规则减少了异常分数的影响[41](https://arxiv.org/html/2606.11196#bib.bib2)。自适应信任权重维护每个评估器的可靠性估计 $w_e$,这些估计基于与共识的偏差在线更新:

$$
w_e^{(t+1)} = w_e^{(t)} \cdot g\!\left(\left\|s_e - \hat{s}\right\|\right) \tag{2}
$$

其中 $g(\cdot)$ 是一个单调递减函数,对偏差较大的评估器降低权重。这一机制借鉴了拜占庭弹性聚合和鲁棒分布式学习的原则[6,4,42,12](https://arxiv.org/html/2606.11196#bib.bib8, https://arxiv.org/html/2606.11196#bib.bib6, https://arxiv.org/html/2606.11196#bib.bib7, https://arxiv.org/html/2606.11196#bib.bib9)。

#### 多维度质量评分。
我们的第三个扩展从单一评估器评分转向了多维度复合评分[40](https://arxiv.org/html/2606.11196#bib.bib3)。质量被分解为 $K$ 个可解释的维度,每个维度产生一个归一化分数 $z_k(q,y) \in [0,10]$:

$$
\hat{s}(q,y) = \sum_{k=1}^{K} \bar{w}_k z_k(q,y), \quad \bar{w}_k = \frac{w_k}{\sum_j w_j} \tag{3}
$$

其中 $w_k$ 是维度权重,$\bar{w}_k$ 是归一化权重。

相似文章

评判电路

arXiv cs.CL

本文研究了LLM-as-a-judge的内部机制,发现模型在中期到后期的多层感知机(MLP)中共享一个稀疏的潜在评估器子图,该子图处理抽象评判,而格式特定的终端分支将评判映射到输出令牌,揭示了格式导致的不一致性的原因。