多利益相关方LLM对齐：将估计与聚合分解

arXiv cs.AI 2026/05/27 04:00 论文
multi-stakeholder llm-alignment reward-model llm-as-judge robust-evaluation alibaba
摘要
本文识别了多利益相关方任务中LLM评估者的权重噪声，并提出了DecompR方法，该方法通过反事实校准的权重将效用估计从聚合中解耦。
arXiv:2605.26878v1 Announce Type: new Abstract: 多利益相关方任务要求单个输出满足具有冲突偏好的用户。整体式LLM评估者将效用估计与效用聚合混为一谈，产生不稳定的隐式权重。我们通过实验和理论证明，这种特定于聚合的\emph{权重噪声}在利益相关方满意度分散时可能导致较大的分数偏移；在我们的实验中，这些由权重引起的偏移也随利益相关方数量增加而增大。我们提出\textsc{DecompR}方法：反事实校准的权重在候选评分前根据查询结构固定，而每个角色的效用独立估计，从而消除依赖候选的权重漂移并减少估计噪声。
查看原文
查看缓存全文
缓存时间: 2026/05/27 09:08
# 多利益相关方LLM对齐：将评估与聚合分离
来源：https://arxiv.org/html/2605.26878
鲁璐郑¹，文进杨¹，向文张¹，荣尹²，玉兰胡¹††，郑潘¹，新李¹

¹高德地图，阿里巴巴集团²北京航空航天大学
\{zll522441,yangwenjin.ywj,xwzhang,huyulan,panzheng.pan,beilai.bl\}@alibaba-inc.com, [email protected]

###### 摘要

多利益相关方任务需要输出一个能满足具有冲突偏好的用户的答案。整体式LLM评委将效用评估与效用聚合混为一谈，从而产生不稳定的隐式权重。我们在经验上和理论上证明，这种特定于聚合的*权重噪声*在利益相关方满意度分散时会导致巨大的分数偏移；在我们的实验中，这些由权重引起的偏移也随着利益相关方数量的增加而增加。我们提出DecompR：反事实校准的权重在候选评分之前根据查询结构固定下来，同时独立评估每个角色的效用，从而消除候选依赖的权重漂移并降低评估噪声。

多利益相关方LLM对齐：将评估与聚合分离

鲁璐郑¹，文进杨¹，向文张¹，荣尹²，玉兰胡¹††通讯作者，郑潘¹，新李¹
¹高德地图，阿里巴巴集团²北京航空航天大学
\{zll522441,yangwenjin.ywj,xwzhang,huyulan,panzheng.pan,beilai.bl\}@alibaba-inc.com, [email protected]

## 1 引言

大语言模型 (LLMs) 在代码生成、数学推理和开放式对话方面取得了显著成功 (OpenAI, 2023 (https://arxiv.org/html/2605.26878#bib.bib51); Qwen Team, 2025 (https://arxiv.org/html/2605.26878#bib.bib57); Guo et al., 2025 (https://arxiv.org/html/2605.26878#bib.bib3))。然而，这些进展大多针对代理服务于单一用户的场景，该用户的偏好定义了明确的优化目标。许多实际任务——团体旅行规划、多方谈判、委员会资源分配——反而要求一个代理为多个利益相关方生成一个单一的联合响应，而这些利益相关方的偏好可能相互冲突。

对此类任务进行LLM对齐通常依赖于强化学习 (Ouyang et al., 2022 (https://arxiv.org/html/2605.26878#bib.bib5); Shao et al., 2024 (https://arxiv.org/html/2605.26878#bib.bib2); Guo et al., 2025 (https://arxiv.org/html/2605.26878#bib.bib3))，这需要一个奖励信号来指定什么是好的联合响应。由于这些任务是开放式的且缺乏可验证的真实答案，奖励通常由LLM作为评委 (Zheng et al., 2023 (https://arxiv.org/html/2605.26878#bib.bib4)) 或学习的奖励模型 (Ouyang et al., 2022 (https://arxiv.org/html/2605.26878#bib.bib5)) 提供。众所周知，LLM评委即使在非多利益相关方设置中也存在评估偏差和不稳定性，包括成对比较中的位置偏差 (Zheng et al., 2023 (https://arxiv.org/html/2605.26878#bib.bib4); Wang et al., 2024c (https://arxiv.org/html/2605.26878#bib.bib9))、绝对评分中的对抗性漏洞 (Raina et al., 2024 (https://arxiv.org/html/2605.26878#bib.bib24))，以及重复运行中评分者内部的分数不一致性 (Haldar and Hockenmaier, 2025 (https://arxiv.org/html/2605.26878#bib.bib21))。多利益相关方评估加剧了这个问题：评委必须在一次评估中同时执行*评估*（每个利益相关方得到多大程度的满足？）和*聚合*（竞争性效用应该如何被加权？），从而产生隐式分配的、可能在不同调用中偏移的聚合权重。

如图1 (https://arxiv.org/html/2605.26878#S1.F1) 所示，对同一计划重复进行评估可能会实例化不同的隐式权重并产生不一致的奖励。我们称此为*权重噪声*：一种特定于聚合的错误，即评委的隐式利益相关方权重在不同评估间发生偏移，从而重新加权效用。当利益相关方满意度分散时，其对分数的影响会被放大，并且可能随着利益相关方数量的增加而增加（§3 (https://arxiv.org/html/2605.26878#S3)）。我们的理论表明这种偏移如何破坏组内响应排序并误导GRPO风格的政策梯度（§4 (https://arxiv.org/html/2605.26878#S4)）。我们通过DecompR来解决这个问题，其关键机制是*反事实校准的聚合*：每个利益相关方的权重根据查询结构固定下来，作为预期牺牲的代理，同时基于角色的评估独立估计效用。

总之，我们形式化了多利益相关方对齐问题，从经验和理论上表明，LLM评委在此设置中的奖励不一致性部分源于特定于聚合的权重噪声，并提出了DecompR通过反事实校准的评估-聚合分离来解决这个问题。

参照图注

图 1：(左) 单个LLM代理将相互冲突的利益相关方偏好综合成一个共享计划。(右) 一个整体式LLM评委隐式地为每个利益相关方分配效用 \(u_i\) 和权重 \(w_i\)；对同一计划的重复评估会产生不同的隐式权重，从而导致不同的标量奖励。
## 2 相关工作

### 2.1 开放式任务的奖励评估

LLM作为评委 (Zheng et al., 2023 (https://arxiv.org/html/2605.26878#bib.bib4)) 可以在没有可验证真实答案的情况下进行奖励评估，但表现出充分记载的不一致性：位置偏差 (Wang et al., 2024c (https://arxiv.org/html/2605.26878#bib.bib9))、冗长偏差 (Saito et al., 2023 (https://arxiv.org/html/2605.26878#bib.bib41))、自我偏好偏差 (Panickssery et al., 2024 (https://arxiv.org/html/2605.26878#bib.bib62)) 以及评分者内部不稳定性 (Haldar and Hockenmaier, 2025 (https://arxiv.org/html/2605.26878#bib.bib21))。结构化方法通过两种方式提高可靠性：明确的评分标准——评分准则 (Hashemi et al., 2024 (https://arxiv.org/html/2605.26878#bib.bib35))、检查清单 (Lee et al., 2025 (https://arxiv.org/html/2605.26878#bib.bib36)) 和思维链评分 (Liu et al., 2023 (https://arxiv.org/html/2605.26878#bib.bib11))——将评估分解为*质量维度*，而经过训练的评估器——微调的评委或生成式奖励模型 (Zhu et al., 2025 (https://arxiv.org/html/2605.26878#bib.bib34); Zhang et al., 2025 (https://arxiv.org/html/2605.26878#bib.bib7))——用监督评分模型替代直接提示。这些方法主要解决*评估*噪声：使指定的评分标准或学习到的评估器更可靠。多利益相关方奖励增加了一个独立的*聚合*问题：评委必须决定如何权衡竞争的利益相关方，而这些方法对此权衡保持隐式。

### 2.2 多目标对齐

多目标对齐将奖励分解为预定义的质量维度或可控属性（例如，有帮助性、安全性），并通过多属性反馈 (Dong et al., 2023 (https://arxiv.org/html/2605.26878#bib.bib13); Wang et al., 2024d (https://arxiv.org/html/2605.26878#bib.bib15))、多目标奖励模型 (Wang et al., 2024b (https://arxiv.org/html/2605.26878#bib.bib16), a (https://arxiv.org/html/2605.26878#bib.bib17))、奖励条件生成 (Yang et al., 2024 (https://arxiv.org/html/2605.26878#bib.bib18)) 或策略合并 (Rame et al., 2023 (https://arxiv.org/html/2605.26878#bib.bib12); Zhou et al., 2024 (https://arxiv.org/html/2605.26878#bib.bib19); Jang et al., 2024 (https://arxiv.org/html/2605.26878#bib.bib20)) 来导航其权衡。我们的设置不同之处在于聚合轴是*人*——每个查询的数量、身份和约束都可能不同——其偏好可能直接冲突。这需要特定于查询的聚合，并产生了我们在§4 (https://arxiv.org/html/2605.26878#S4) 中形式化的权重噪声问题。

### 2.3 GRPO 与奖励噪声

GRPO (Shao et al., 2024 (https://arxiv.org/html/2605.26878#bib.bib2); Guo et al., 2025 (https://arxiv.org/html/2605.26878#bib.bib3)) 通过组内相对归一化计算优势，使梯度方向完全依赖于每个组内的相对奖励质量。最近的工作表明，组相对优势可能被提示难度 (Yang et al., 2026 (https://arxiv.org/html/2605.26878#bib.bib44)) 所偏倚，有噪声或损坏的奖励需要显式修正以避免有偏梯度 (El Mansouri et al., 2025 (https://arxiv.org/html/2605.26878#bib.bib45))，并且多目标GRPO容易通过不成比例地优化更高方差的奖励组件而受到奖励破解 (Ichihara et al., 2025 (https://arxiv.org/html/2605.26878#bib.bib47))。这些工作研究了一旦奖励信号给定，GRPO如何应对噪声。我们问一个前置问题：LLM评委信号本身对于多利益相关方任务是否可靠，其方差为何产生，以及如何在它进入GRPO之前减少它。

n=2 | n=3 | n=5 | n=8 |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
Judge | Quality | \(\sigma^2_{\text{Rep}}\) | \(\sigma^2_{\text{Sem}}\) | \(\sigma^2_{\text{Rep}}\) | \(\sigma^2_{\text{Sem}}\) | \(\sigma^2_{\text{Rep}}\) | \(\sigma^2_{\text{Sem}}\) | \(\sigma^2_{\text{Rep}}\) | \(\sigma^2_{\text{Sem}}\) | Growth | S/R |
| Qwen3.5-Plus | Low | 0.20 | 0.52 | 0.18 | 0.26 | 0.21 | 0.30 | 0.16 | 0.21 | 0.40 | 1.29 |
| | Medium | 0.15 | 0.59 | 0.63 | 0.68 | 0.67 | 0.73 | 0.25 | 0.46 | 0.78 | 1.87 |
| | High | 0.18 | 0.27 | 0.25 | 0.30 | 0.28 | 0.57 | 0.19 | 0.46 | 1.71 | 2.43 |
| Gemini-3-Flash | Low | 0.00 | 0.93 | 0.00 | 0.12 | 0.00 | 0.18 | 0.00 | 0.15 | 0.16 | \(\infty\) |
| | Medium | 0.00 | 0.25 | 0.00 | 0.81 | 0.00 | 1.72 | 0.00 | 1.67 | 6.67 | \(\infty\) |
| | High | 0.00 | 0.64 | 0.00 | 0.64 | 0.00 | 1.49 | 0.00 | 1.46 | 2.27 | \(\infty\) |
| DeepSeek-V4-Flash | Low | 0.43 | 1.14 | 0.57 | 0.45 | 0.37 | 0.51 | 0.26 | 0.39 | 0.34 | 1.54 |
| | Medium | 0.47 | 1.10 | 1.06 | 1.52 | 1.77 | 1.46 | 1.31 | 1.32 | 1.20 | 1.01 |
| | High | 0.50 | 0.68 | 1.14 | 1.09 | 0.91 | 1.72 | 0.49 | 1.22 | 1.81 | 2.49 |
| All (Med+High) | | 0.22 | 0.59 | 0.53 | 0.84 | 0.62 | 1.28 | 0.42 | 1.10 | 1.87 | 2.64 |
| All (Low) | | 0.21 | 0.86 | 0.25 | 0.28 | 0.19 | 0.33 | 0.14 | 0.25 | 0.29 | 1.80 |

表 1: \(\sigma^2_{\text{Rep}}\) = 完全重复方差；\(\sigma^2_{\text{Sem}}\) = 呈现导致的奖励不一致性，测量为同一响应的语义保留变体上的分数方差；Growth = \(\sigma^2_{\text{Sem}}\) at n=8 / \(\sigma^2_{\text{Sem}}\) at n=2；S/R = \(\sigma^2_{\text{Sem}} / \sigma^2_{\text{Rep}}\) at n=8。Gemini-3-Flash: 在T=0时 \(\sigma^2_{\text{Rep}}=0\)。

## 3 实证分析：多利益相关方奖励一致性

多利益相关方规划缺乏可验证的真实答案，因此RL训练必须依赖LLM评委或奖励模型来提供学习信号。我们实证调查当前LLM评委是否能为这种设置（即单个计划必须调和异质的、有时相互冲突的利益相关方偏好）提供一致的奖励信号。

##### 设置。

我们从真实的多利益相关方旅行规划查询中构建了60个种子响应，涵盖利益相关方数量 \(n \in \{2, 3, 5, 8\}\) 和三个质量水平（高/中/低）。对于每个种子，我们通过基于规则的变换（顺序排列、格式控制）和基于LLM的重写（因果方向翻转、证据重新定位、释义、主题重新定位）生成55个*语义保留变体*（11个变体族 \(\times\) 5个版本），所有这些都保留了行程内容、约束满足和计划质量。人类评估者会为这些变体分配相同的分数；我们将 \(\sigma^2_{\text{Sem}}\) 定义为同一种子响应的变体之间的分数方差。此外，我们收集了5次完全重复的未改变输入作为噪声基线，得到 \(\sigma^2_{\text{Rep}}\)，即评委的固有随机性。它们的比值 \(\sigma^2_{\text{Sem}} / \sigma^2_{\text{Rep}} > 1\) 表明表面呈现增加了超出固有噪声的方差。所有评估都使用贪婪解码（\(T=0\)）在三个最先进的LLM评委上进行：Qwen3.5-Plus (Qwen Team, 2026 (https://arxiv.org/html/2605.26878#bib.bib59))、Gemini-3-Flash (Google, 2025 (https://arxiv.org/html/2605.26878#bib.bib60)) 和 DeepSeek-V4-Flash (DeepSeek-AI, 2026 (https://arxiv.org/html/2605.26878#bib.bib61))。完整细节见附录A (https://arxiv.org/html/2605.26878#A1)。

### 3.1 分数不稳定性随利益相关方数量增加而扩大

表1 (https://arxiv.org/html/2605.26878#S2.T1) 显示，对于中等质量和高质量的响应，*分数方差随利益相关方数量增加*：合并后的 Growth=1.87，Gemini 达到 6.67 倍。在 n=8 时，中等+高质量响应的 Sem/Rep 比达到 2.64：仅改变利益相关方的讨论方式——他们的顺序、证据放置位置——就会导致比评委自身随机性多 2.6 倍的分数变化。低质量响应没有显示出这种缩放（Growth=0.29），可能是因为地板效应：分数聚集在量表底部附近（\(\mu \approx 2.5\)–3.2），留给评委的变化空间很小。这对于GRPO尤其令人担忧，因为它依赖于组内奖励比较：对于中等和高质量响应（GRPO必须区分的候选者）的不稳定分数可能会翻转哪些响应被强化。

并非所有变体类型贡献相同：与利益相关方呈现相关的话语变化（因果框架、证据放置、覆盖顺序）随着 \(n\) 的增加产生最大的方差增长，而低级格式变化则增长很小（附录A.4 (https://arxiv.org/html/2605.26878#A1.SS4)）。因此，不稳定性是特定于利益相关方的，而非通用的表面噪声。

### 3.2 结构化评分中的稳定性-表现力权衡

接下来，我们测试结构化评估协议是否可以减少这种由呈现引起的方差。我们将直接整体评分与三种结构化协议（附录A.2 (https://arxiv.org/html/2605.26878#A1.SS2)）进行比较：**评分准则**在固定维度上使用固定权重进行评分 (Hashemi et al., 2024 (https://arxiv.org/html/2605.26878#bib.bib35))，**检查清单**使用二元验证和程序化聚合 (Lee et al., 2025 (https://arxiv.org/html/2605.26878#bib.bib36))，以及**分解评分**的两种变体——*自适应*，评委分配每个利益相关方的权重 \(w_i\) 和满意度 \(\hat{u}_i\)，以及*均匀*，使用 \(w_i=1/n\) 和相同的 \(\hat{u}_i\) 进行诊断性重新计算。所有方法都使用 Gemini-3-Flash 在 \(T=0\)（\(\sigma^2_{\text{Rep}}=0\)），因此所有观察到的方差纯粹是由呈现引起的。我们专注于中等和高质量响应——这是与GRPO最相关的质量范围，因为策略必须区分有竞争力的候选者。

方法 | n=2 | n=3 | n=5 | n=8 | Growth |
| --- | --- | --- | --- | --- | --- |
| 直接 | 0.45 | 0.72 | 1.61 | 1.57 | 3.50 |
| 评分准则 | 0.70 | 0.65 | 0.79 | 0.82 | 1.18 |
| 检查清单 | 1.10 | 1.06 | 1.47 | 2.22 | 2.01 |
| 分解 (自适应) | 0.61 | 0.87 | 0.88 | 0.96 | 1.58 |
| 分解 (均匀) | 0.60 | 0.81 | 0.83 | 0.72 | 1.20 |

表 2: 按评估方法划分的 \(\sigma^2_{\text{Sem}}\)（Gemini-3-Flash，\(T=0\)，仅中等+高质量）。

关键见解是，结构化有助于减少呈现引起的方差，但在线评委自适应的利益相关方加权会重新引入聚合不稳定性。评分准则（Growth 1.18）和具有固定均匀权重的分解评分（1.20）是最稳定的，而受控的分解比较表明，使用相同的 \(\hat{u}_i\)，评委分配的自适应权重将 Growth 从 1.20 增加到 1.58。这些稳定的基线作为最终奖励并不足够：评分准则聚合的是通用质量维度而非利益相关方效用，均匀权重忽略了特定于查询的约束不对称性。这激发了一个两阶段设计：在线估计每个利益相关方的满意度，但在评分调用之外固定非均匀的聚合权重。
多利益相关方LLM对齐：将估计与聚合分解

相似文章

面向多LLM系统中不确定性感知的信任估计方法：基于结构化专家判断

LLM-as-Judge的几何学：为何LLM间共识并非人类对齐

面向可靠LLM判断的边际自适应置信度排序

委托投票何时击败多数表决？一种基于委托的多样本LLM推理聚合器

RoPoLL: 鲁棒的LLM评审团面板

提交意见反馈