垂直联邦学习中基于期望增益的升级策略

arXiv cs.LG 论文

摘要

本文研究垂直联邦学习中的选择性升级问题,提出一种基于期望增益的评分方法,在低成本的本地预测和高成本的嵌入融合之间进行路由,以优化通信与准确率之间的权衡。

arXiv:2606.31331v1 公告类型:新 摘要:协作推理可以通过整合各代理之间的互补信息来提升预测性能,但对每个样本都应用协作融合可能会产生不必要的通信和计算开销。这种权衡在垂直联邦学习(VFL)中尤为突出,其中客户端观察同一样本的不同视图,融合通常需要将中间表示传输到服务器。我们研究了两轮VFL推理协议中的选择性升级,其中低成本的第一轮根据客户端后验概率产生预测,第二轮嵌入融合仅在预计能改进最终决策时才被调用。我们将路由问题建模为期望增益评分估计:当预测的正确性提升足以证明额外通信的合理性时,样本将被升级。所提出的分析评分将校准后的汇集后验概率与VFL模型的类别级可靠性估计相结合,两者均来自预留的校准数据,从而产生一个可解释的路由器,无需单独训练路由网络。在多视图分类基准上的实验(包括受控的测试时视图退化设置)表明,所提出的路由器在通信与准确率权衡方面优于基于置信度、学习增益和延迟的基线方法。
查看原文
查看缓存全文

缓存时间: 2026/07/01 05:35

# 基于期望增益的纵向联邦学习中的选择性升级
来源:https://arxiv.org/html/2606.31331
###### 摘要

协同推理通过整合不同智能体之间的互补信息可以提升预测性能,但对每个样本都应用协同融合会带来不必要的通信和计算开销。这种权衡在纵向联邦学习(VFL)中尤为突出,因为客户端观测到同一样本的不同视图,而融合通常需要将中间表示传输给服务器。我们研究两轮VFL推理协议中的选择性升级:第一轮成本较低,通过客户端后验分布生成预测;只有在预计能改善最终决策时,才启动第二轮嵌入融合。我们将路由问题建模为期望增益分数估计:当预测的准确性提升足以证明额外通信的合理性时,样本被升级。提出的分析分数结合了校准后的池化后验分布和VFL模型逐类别的可靠性估计——两者均来自留出校准数据——从而产生一个可解释的路由器,无需单独训练路由网络。在多视图分类基准(包括测试时视图可控退化的设定)上的实验表明,与基于置信度、学习增益和延迟的基线方法相比,所提路由器在通信-准确率权衡方面有所改进。

## I 引言

多个智能体之间的协同推理可以提高预测质量,但也引发了一个实际问题:何时协作才真的物有所值?在许多多智能体系统中,不同客户端观测同一样本的互补视图,通过在服务器端整合这些信息可以获得更强的预测。纵向联邦学习(VFL)为这种设定提供了自然框架:每个客户端处理自身的局部视图,仅将选定的信息传输用于联合预测[9,11]。难点在于,这种更精确的协作路径也是代价最高的,因为它可能需要传输中间表示而非轻量级的局部预测。这种权衡在推理时尤为重要。系统可能仅凭客户端局部输出就能快速做出预测,而如果允许额外通信,则能获得更强的协作预测。在实践中,很少需要对每个样本都启动这条更强的路径。某些输入对局部路径而言已经很容易处理,而另一些则恰恰是需要升级到协作推理的最有用场景。因此,挑战在于逐个样本地判断额外通信是否合理。

我们在一个两轮VFL协议中研究这个问题。在第一轮中,每个客户端发送局部后验分布,服务器形成池化预测。在第二轮中,如果样本被升级,客户端发送更高维度的嵌入,由更强的协作模型进行融合。路由问题在于,在第一轮之后决定是否切换到第二轮预测器,使其正确性的提升足以抵消额外成本。

我们的方法基于一个简单的想法:将升级视为期望增益决策。不同于从路由标签中学习独立的路由器,我们利用可从留出校准数据计算得到的量,解析地估计升级的效用。所得的分数取决于两个要素:校准后的池化第一轮后验分布(用于估计第一轮后的合理类别标签),以及第二轮VFL模型逐类别的统计可靠性(即每个类别上协作路径的正确概率)。这些量共同构成一个基于阈值的路由规则,易于解释且便于部署。

本文做出以下贡献:

- • 研究了两轮协同推理设定中推理时的选择性升级,轻量级的初始预测路径可以按需启动代价高昂的协作VFL模型。
- • 提出基于期望增益的解析路由规则,仅需池化后的第一轮后验分布和协作模型逐类别的可靠性统计。
- • 在多个多视图分类任务和部署条件下进行实证验证,表明所提方法在准确率-升级权衡上表现良好,并且一贯优于基于学习增益、置信度和延迟的基线方法。

## II 相关工作

我们的工作位于通信高效的纵向联邦学习、选择性预测与延迟以及自适应推理的交汇点。

VFL领域已有大量工作研究如何降低协作训练和推理的通信与计算成本。现有方向包括压缩与量化、稀疏通信、特征选择、有限重叠协议以及中间表示的缓存或重用[10,1,7,18,19]。这些方法主要关注在进行协作推理时降低其成本。相比之下,我们的关注点不同:给定训练好的协作路径,在测试时何时才应该启动它?

我们的工作也与选择性预测和拒绝选项分类相关,即模型在不自信时可以弃权[2,6],并且更接近于学习延迟方法,即预测器决定是保留自己的预测还是将样本交给另一个模型或专家[15,17,16,14]。这些工作为我们设定提供了更广泛的决策理论基础:弱路径立即可用,而更强的替代路径可以选择性使用。

最接近的概念联系是自适应推理和分类器级联,其中额外计算仅在预期收益证明额外成本合理时才会使用[3,8]。我们的两轮协议很自然地符合这种视角:第一轮提供廉价的池化预测,第二轮提供更强的协作预测。主要区别在于路由信号的构建方式。我们不是学习独立的路由器或显式建模更强路线的未见输出,而是提出一种基于两个在留出数据上估计的要素的插件式近似:来自池化第一轮预测的校准后验分布,以及第二轮模型的逐类别可靠性统计。

## III 问题设定

我们考虑一个多智能体分类问题,有 \(M\) 个客户端和 \(K\) 个类别,设定为纵向联邦推理场景,其中不同客户端观测同一底层样本的互补部分视图,服务器整合通信信息生成预测[9]。样本从未知分布抽取,满足

\((\boldsymbol{x}_1,\ldots,\boldsymbol{x}_M,y) \in \mathcal{X}_1 \times \cdots \times \mathcal{X}_M \times \{0,\ldots,K-1\}\),

其中 \(\boldsymbol{x}_i\) 表示客户端 \(i\) 可观测到的信息,\(y\) 是真实类别标签。

每个客户端 \(i \in \{1,\ldots,M\}\) 配备:

- • 一个局部分类器 \(f_i: \mathcal{X}_i \to \Delta^{K-1}\),输出局部后验分布 \(\boldsymbol{p}_i = f_i(\boldsymbol{x}_i) \in \Delta^{K-1}\),这里 \(\Delta^{K-1}\) 表示 \(K\) 个类别上的概率单纯形;
- • 一个特征编码器 \(E_i: \mathcal{X}_i \to \mathbb{R}^{d_i}\),输出嵌入 \(\boldsymbol{e}_i = E_i(\boldsymbol{x}_i)\).

### III-A 两轮推理

我们研究一个两轮推理协议,其中廉价的局部路径预测(第一轮)可以选择性地被更强但通信密集的协作预测(第二轮)替代。

#### 第一轮:局部后验通信。

每个客户端仅将其实体后验 \(\boldsymbol{p}_i\) 发送给服务器。服务器通过平均池化构造聚合后验分布:

\(\bar{\boldsymbol{p}} = \frac{1}{M} \sum_{i=1}^M \boldsymbol{p}_i.\) (1)

相应的廉价预测路径为

\(\hat{y}_{\mathrm{loc}} = \operatorname{arg\,max}_{k \in \{0,\ldots,K-1\}} \bar{\boldsymbol{p}}(k).\) (2)

#### 第二轮:协作嵌入融合。

如果样本被升级,每个客户端计算嵌入 \(\boldsymbol{e}_i = E_i(\boldsymbol{x}_i)\) 并传输给服务器。服务器端的 VFL 融合模型

\(g_{\mathrm{VFL}}: \mathbb{R}^{d_1} \times \cdots \times \mathbb{R}^{d_M} \to \Delta^{K-1}\)

生成协作后验分布

\(\boldsymbol{q} = g_{\mathrm{VFL}}(\boldsymbol{e}_1,\ldots,\boldsymbol{e}_M),\) (3)

预测结果为

\(\hat{y}_{\mathrm{VFL}} = \operatorname{arg\,max}_{k \in \{0,\ldots,K-1\}} \boldsymbol{q}(k).\) (4)

第一轮被刻意设计为轻量级:仅需通信 \(K\) 维后验向量,并使用低复杂度的局部预测器。第二轮通常更具表达能力但也更昂贵,因为它需要传输更高维的中间表示并应用协作的服务器端融合模型。

### III-B 路由策略与目标

路由策略在观测到池化后的第一轮后验之后,决定是否将样本升级到第二轮。令

\(\pi: \Delta^{K-1} \to \{0,1\}\)

为一个二元路由规则,其中 \(\pi(\bar{\boldsymbol{p}}) = 1\) 表示升级,\(\pi(\bar{\boldsymbol{p}}) = 0\) 表示采用第一轮预测。

给定 \(\pi\),最终预测为

\(\hat{y}^{\pi} = \begin{cases} \hat{y}_{\mathrm{VFL}}, & \text{if } \pi(\bar{\boldsymbol{p}}) = 1, \\ \hat{y}_{\mathrm{loc}}, & \text{otherwise.} \end{cases}\) (5)

系统级目标是在平均升级预算约束下最大化预测准确率:

\(\max_{\pi} \mathbb{E}_{(\boldsymbol{x}_1,\ldots,\boldsymbol{x}_M,y) \sim \mathcal{P}} \left[ \mathbf{1}\!\left[ \hat{y}^{\pi} = y \right] \right]\) (6)
\(\text{s.t. } \mathbb{E}_{(\boldsymbol{x}_1,\ldots,\boldsymbol{x}_M,y) \sim \mathcal{P}} \left[ \pi(\bar{\boldsymbol{p}}) \right] \leq B\)

其中 \(\mathcal{P}\) 表示测试时分布,\(B \in [0,1]\) 是预设的升级预算。该约束相当于将平均通信成本控制在某个常数因子之内¹¹¹虽然我们的重点不是通过压缩、量化或编码技术优化通信层本身,但我们明确研究了协作路径的选择性升级作为降低推理时通信成本的一种机制。本工作中的通信成本更详细的讨论见附录。

### III-C 升级增益

对于真实标签为 \(y\) 的样本,我们定义升级增益为

\(G = \mathbf{1}\!\left[ \hat{y}_{\mathrm{VFL}} = y \right] - \mathbf{1}\!\left[ \hat{y}_{\mathrm{loc}} = y \right] \in \{-1,0,+1\}.\) (7)

该量区分三种情况:

- • \(G = +1\):升级有益(第一轮错误,第二轮正确);
- • \(G = 0\):升级中性(两条路径在正确性上一致);
- • \(G = -1\):升级有害(第一轮正确,第二轮错误)。

这种表述遵循一般的决策理论观点:选择性升级应依赖于调用更强但更昂贵的预测路径所带来的条件收益。类似的想法出现在基于信息价值的主动分类和最近的分类器级联分析中,其中路由决策通过弱预测器和强预测器的相对正确性来表达[8]。在我们的设定中,弱路径是池化后的第一轮预测器,强路径是协作的第二轮VFL预测器。

由于升级决策是在第一轮之后做出的,池化后验 \(\bar{\boldsymbol{p}}\) 是路由器可观测的自然量。因此我们考虑如下形式的阈值策略:

\(\mathbb{E}[G \mid \bar{\boldsymbol{p}}] > \tau,\) (8)

其中 \(\tau\) 控制通信-准确率权衡。根据 \(G\) 的定义,条件期望增益可以写为

\(\mathbb{E}[G \mid \bar{\boldsymbol{p}}] = \mathbb{P}(\hat{y}_{\mathrm{VFL}} = y \mid \bar{\boldsymbol{p}}) - \mathbb{P}(\hat{y}_{\mathrm{loc}} = y \mid \bar{\boldsymbol{p}}).\) (9)

## IV 方法

### IV-A 期望升级增益的插件近似

以 \(\bar{\boldsymbol{p}}\) 为条件,式 (9) 中的第一项可以展开为

\(\mathbb{P}(\hat{y}_{\mathrm{VFL}} = y \mid \bar{\boldsymbol{p}}) = \sum_{k=0}^{K-1} \mathbb{P}(\hat{y}_{\mathrm{VFL}} = y, y = k \mid \bar{\boldsymbol{p}})\)
\(= \sum_{k=0}^{K-1} \mathbb{P}(\hat{y}_{\mathrm{VFL}} = k \mid y = k, \bar{\boldsymbol{p}}) \, \mathbb{P}(y = k \mid \bar{\boldsymbol{p}}).\) (10)

量 \(\mathbb{P}(\hat{y}_{\mathrm{VFL}} = k \mid y = k, \bar{\boldsymbol{p}})\) 通常依赖于样本,在测试时无法直接获得。因此我们采用以下近似。

#### 逐类别可靠性近似。

我们将第二轮路径在给定类别下的条件正确性近似为一个逐类别的平均可靠性项:

\(\mathbb{P}(\hat{y}_{\mathrm{VFL}} = k \mid y = k, \bar{\boldsymbol{p}}) \approx \mathbb{P}(\hat{y}_{\mathrm{VFL}} = k \mid y = k) = C_{\mathrm{VFL}}[k,k],\) (11)

其中 \(C_{\mathrm{VFL}}[k,k]\) 表示第二轮混淆矩阵中类别 \(k\) 的对角线元素。换句话说,一旦真实类别固定,我们假设第二轮正确性对 \(\bar{\boldsymbol{p}}\) 的剩余依赖足够小,可以在分析模型中忽略。这使得分数容易从留出数据中估计:协作路径的行为通过每个类别一个可靠性来总结。

相似文章

准确且资源高效的联邦持续学习

arXiv cs.LG

FedRAN是一种资源感知的分析型联邦持续学习框架,用紧凑的随机特征统计量替代基于梯度的更新,在显著降低通信与计算成本的同时实现高精度。