Representation Curriculum: 分阶段训练以实现稳健排序与分配

arXiv cs.LG 2026/06/10 04:00 论文

摘要

本文提出Representation Curriculum (RC)，一种训练时干预方法，通过分阶段利用特征来减少对曝光混杂历史信号的过度依赖，并改善排序系统中的冷启动泛化能力。该方法经过了理论分析，并在公开基准和大规模eBay搜索实验中得到了验证。

arXiv:2606.09891v1 公告类型：新摘要：数字市场中的排序是一种动态的曝光分配机制：展示的商品会塑造用户的发现轨迹，而平台记录的成功事件则用于更新未来的分配策略。现代排序系统高度依赖曝光混杂信号（例如流行度估计、CTR/CVR聚合值和基于ID的表示），因为这些信号在需求稳定时具有很强的预测能力。然而，这种预测能力可能成为一种学习捷径：早期获取依赖曝光的信念信号会使优化过程过度依赖这些信号，而忽略与曝光无关的价值信号（例如基于内容的竞争力和语义亲和性）。因此，学习到的策略往往倾向于固化现有商品，并降低冷启动泛化能力和在分布变化下的鲁棒性。我们提出Representation Curriculum (RC)，一种训练时的干预方法，它在时间上分阶段利用特征。RC首先强调基于内容的价值信号，然后引入依赖曝光的信念信号，同时将内容路径锚定在已学习的价值表示附近，从而抑制对历史信号的捷径依赖，并缓解内容信号上的梯度饥饿问题。我们独立于任务和假设类对RC进行形式化，并提供了针对排序的具体实例。在高斯线性岭回归设置中，我们推导出了闭式解和充分条件，证明RC能够严格降低冷启动目标分布上的总体风险，并与源性能之间存在量化的帕累托权衡。在公开的学习排序和推荐基准实验，以及大规模电商搜索系统中的随机在线实验中，结果表明RC可测量地将依赖从历史信念信号转向基于内容的价值信号，并在头部性能受控权衡的情况下为冷启动群体带来了持续的性能提升。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:17

# 表征课程：面向鲁棒排序与分配的分阶段训练

来源：https://arxiv.org/html/2606.09891

,Sina Baharlouei 和 Abraham Bagherjeiran  
eBay 搜索排序与变现  
加利福尼亚州圣何塞，美国

2026年6月1日

###### 摘要

数字市场中的排序是一种动态的曝光分配机制：展示的商品塑造发现轨迹和成功事件，平台记录这些事件以更新未来的分配策略。因此，现代排序系统严重依赖内生的、受曝光混杂的信号（例如，流行度估计、CTR/CVR聚合值以及基于ID的表征），因为这些信号在近似平稳的需求下具有高度预测性，并能解释记录结果中的大部分方差。然而，这种预测能力可能成为一种学习捷径：在训练中早期接触依赖于曝光的*信念*信号，会使优化动态过度依赖这些信号，而忽略独立于曝光的*价值*信号（例如，基于内容的竞争力和语义意图亲和度估计）。结果，学习到的策略往往倾向于固化现有商品，并削弱冷启动泛化能力和在分布偏移下的鲁棒性。

我们提出**表征课程**（Representation Curriculum, RC），这是一种在训练时进行的、面向语义的优化轨迹干预方法，通过分阶段利用特征来实施。RC 在训练的初始阶段优先使用基于内容的价值信号，然后在引入依赖曝光的历史信念信号的同时，锚定内容通路使其保持接近已学到的价值表征，从而遏制对历史信号的捷径依赖，并缓解内容信号上的梯度饥饿问题。我们将 RC 形式化为一种独立于任务和假设类别的方法，并提供针对排序的具体实例化。在高斯线性岭回归设定下，我们推导了闭式解，并给出了可验证的充分条件，在此条件下 RC 在福利对齐的冷启动目标分布上严格降低总体风险，同时提供了与源端性能的量化帕累托权衡。在公开的学习排序和推荐基准上的实验，以及在一个大规模电商产品搜索系统中开展的随机在线实验表明，RC 可衡量地将依赖从历史信念信号转向基于内容的价值信号，并在控制头部性能权衡的情况下，在冷启动群体上取得一致的收益。

学习排序；课程学习；机制设计；利用偏差；冷启动

††期刊年份：2026  
††版权：cc  
††会议：第32届ACM SIGKDD知识发现与数据挖掘会议 V.2，2026年8月09–13日，韩国济州岛  
††书刊：第32届ACM SIGKDD知识发现与数据挖掘会议 V.2 (KDD '26)，2026年8月09–13日，韩国济州岛  
††DOI: 10.1145/3770855.3818470  
††ISBN: 979-8-4007-2259-2/2026/08  
††CCS: 信息系统 → 学习排序  
††CCS: 应用计算 → 在线购物

## 1. 引言

搜索和推荐中的现代排序系统做出分配决策，这些决策塑造了消费者发现库存的方式、供应商获得曝光的方式，以及市场随时间演化的方式。由于这些策略调节着多个利益相关方（供应商、消费者和平台）的成果，因此期望它们能够考虑各方激励，并可靠地泛化到异构流量段。这在动态市场中尤其具有挑战性，因为供应端具有高新颖性、异质性和流失率，而消费端则面临非平稳需求和异质意图。因此，严格控制*决策原语*的使用方式，以做出福利对齐的分配，至关重要。当排序器主要依赖平台过去分配所内生的、受曝光塑造的历史信号时，它们可能表现出自我强化的泛化模式，过度偏向现有商品，削弱发现能力、公平性和平台长期健康。流行度驱动的泛化可能导致：(i) 冷启动脆弱性，损害发现能力和新供应商入驻；(ii) 将发现的负担转移给用户，而非依赖独立于曝光的基于内容的价值信号；(iii) 当反馈跨上下文合并以获得统计稳定的估计时，产生上下文意图错配；(iv) 自我强化的曝光循环，固化现有商品 (Chaney et al., 2018)。

现有方法通过以下方式缓解这种*流行度偏差* (Chen et al., 2023; Abdollahpouri et al., 2019)：(i) 使用反事实学习技术（如倾向加权）纠正训练数据选择效应；(ii) 通过蒸馏或奖励建模塑造监督信号，以鼓励期望的分配行为；(iii) 通过收缩和不确定性感知的信念估计（如经验贝叶斯）；(iv) 通过架构约束限制历史与内容的融合，维护内容通路；(v) 在训练中使用随机掩码/丢弃作为正则化技术。这些方法大致上是互补的，但它们通常不考虑数据语义以及*学习如何*随时间跨特征组分配容量。然而，我们认为早期接触信念信号可能主导梯度，诱导出一个稳定的捷径解，从而欠学习基于内容的价值。为此，我们提出一种面向语义的训练轨迹干预：延迟访问信念信号并保护内容通路，从而在记录数据上的头部性能与福利对齐目标段上的鲁棒性之间实现显式权衡。

### 1.1. 已有工作

*\(1\) 基于内生日志的反事实与因果学习*。反事实学习排序 (LTR) 方法通过倾向加权 (Swaminathan and Joachims, 2015; Joachims et al., 2017; Schnabel et al., 2016) 在经验风险最小化中处理有偏反馈（如位置偏差）。结构因果模型将流行度视为混杂因素并进行显式干预 (Zhang et al., 2021; Wei et al., 2021)。在分布偏移下实现鲁棒性的更广泛目标已在不变预测 (Peters et al., 2016)、不变风险最小化 (Arjovsky et al., 2019) 和锚点回归 (Rothenhäusler et al., 2021) 中研究。这些工作致力于识别和评估，但通常将特征表征视为既定给定，不直接控制学习器如何使用不同特征组。

*\(2\) 基于监督的行为塑造*。平台可以通过从以价值为中心的教师模型进行蒸馏 (Ebrahimzadeh et al., 2024a; Hinton et al., 2015)、曝光公平性的约束优化 (Singh and Joachims, 2018, 2019; Singh et al., 2021; Tang et al., 2024)，或奖励塑造与策略模仿 (Chen et al., 2022) 来编码偏好。这些方法通过目标函数塑造行为，但当信念信号在早期优化中占据主导时，不一定能防止捷径学习。

*\(3\) 历史稳定化与收缩*。工业系统使用不确定性感知的信念估计（如基于全局或内容先验的经验贝叶斯平滑）来聚合平台信念，用于 LTR 和产品搜索 (Yang et al., 2022, 2024; Han et al., 2022; Ardywibowo et al., 2025)。经验贝叶斯通过降低方差和校准不确定性来改善依赖曝光的信号质量，但并未直接解决学习动态问题，信念信号仍可能主导学习。

*\(4\) 架构约束与显式分解*。多塔架构、门控机制和有限融合约束了历史信念与基于内容的价值表征的组合方式 (V olkovs et al., 2017; Wang et al., 2018a)。它们可以强制实施可解释的策略结构，但如果显式分解过于严格，可能性能不佳。

*\(5\) 优化轨迹干预*。训练动态影响学到的表征，强预测器可能抑制神经网络中较弱线索的梯度信号 (Pezeshki et al., 2021)。通用正则化器（丢弃法）和随机掩码减少对任何单一特征组的依赖 (Srivastava et al., 2014; V olkovs et al., 2017; Wang et al., 2018a)，但通常不感知语义且不面向福利对齐。我们的方法与标准课程学习 (Ferro et al., 2018; Zeng et al., 2022) 不同，我们通过显式锚定到内容通路来塑造模型特性。

### 1.2. 贡献

#### 面向鲁棒分配的语义感知表征课程：

我们提出*表征课程*（RC），将特征划分为基于内容的价值信号和依赖曝光的历史信念信号，并在时间上分阶段训练。第一阶段仅训练基于内容信号的模型。第二阶段引入历史信号，但通过锚定优化过程来保持基于内容的能力。这种特征访问课程补充了标准方法，通过控制学习器对历史信念信号的依赖来缓解过度依赖问题。

#### 具有量化权衡和可验证充分条件的理论保证：

我们在线性岭回归中分析 RC，提供可验证的条件，说明在强调冷启动/策略性段的目标分布上，RC 如何降低总体风险，同时在记录数据分布上保持竞争力。我们将该视角扩展到基于基边量课程的提升树，以及神经排序（其中我们将成对/列表式饱和与特征饥饿关联起来），并提供实用的诊断方法。

#### 在公开基准和部署系统上的实验证据：

在 MSLR-WEB 上，我们识别出高度预测性的、基于历史信念的特征（编码行为证据），并展示 RC 如何降低这些历史信念信号的特征重要性，在最小化整体性能影响的同时提升冷启动商品排序质量。在 MovieLens 上，RC 塑造神经双塔推荐器，使其更强地依赖内容，并在缺乏历史信号的情况下获得更强的冻结启动性能。最后，在大型电商赞助搜索系统中的在线 A/B 测试表明，通过 RC 训练的策略在总体 KPI 不变的情况下，增加了新商品的曝光和销售速度，表明 RC 在大规模系统中是一种有效的行为塑造技术。

## 2. 问题设定：内生历史信号下的鲁棒策略更新

我们将排序形式化为一种分配机制，包含两个语义上不同的特征类别：*独立于曝光的、基于内容的价值信号*和*依赖曝光的历史信念信号*。在时间步 \(t\)，部署的策略 \(\pi_t\) 将上下文 \(c\)（查询、会话、用户意图状态）和候选集合映射到一个排序结果列表（或一个关于排序的分布）。曝光引发交互，数据采样策略产生记录数据集 \(\mathcal{D}_t\)，该数据集随后用于训练新策略 \(\pi_{t+1}\)；即

\[
\pi_t \longrightarrow \mathcal{D}_t \sim \mathcal{P}(\pi_t) \longrightarrow \pi_{t+1},
\]

其中 \(\mathcal{P}(\pi_t)\) 表示由部署诱导的数据分布（包括选择效应和反馈）。一个关键挑战在于 \(\mathcal{P}(\pi_t)\) 是*内生的*：哪些上下文和商品出现，以及哪些结果被观测到，都受到已部署策略的影响。平台通常不止针对记录数据中所代表的群体进行优化。相反，它们会选择反映战略或福利对齐目标的*目标分布* \(\mathcal{Q}\)（例如，改进长尾覆盖、支持新供应、优先处理高价值意图或满足公平性约束）。我们的目标是训练下一个策略，使其能够泛化到平台选择的目标群体，并且不过度依赖内生信念特征。如果每一次更新都能对 \(\mathcal{P}(\pi_t)\) 与 \(\mathcal{Q}\) 之间的错配保持鲁棒，那么重复部署就不太可能放大反馈循环。随着时间的推移，这有助于保持与平台长期目标的校准。

每个训练样本是一个元组 \(\mathbf{z} = (c, i, y, \mathbf{x})\)，其中 \(c\) 是上下文，\(i\) 是商品，\(y\) 是标签（例如，相关性、点击、转化），\(\mathbf{x}\) 是特征向量。我们假设特征分解为两个语义组：\(\mathbf{x} \equiv (\mathbf{x}_C, \mathbf{x}_H)\)，其中

- \(\mathbf{x}_C\) 是*基于内容的信号*，即无论先前曝光如何皆可用的特征（例如，查询-商品亲和度、商品属性、价格和物流信号、内容嵌入）。
- \(\mathbf{x}_H\) 是*依赖曝光的历史信念信号*，即从过去曝光和交互中导出的特征（例如，稳定的 CTR/CVR 估计、历史交易、商品 ID 或历史派生嵌入）。

历史信念信号 \(\mathbf{x}_H\) 之所以强大，是因为它们紧凑地总结了在先前分配下累积的交互证据。然而，它们也是*策略介导*的：它们的分布取决于平台先前的曝光决策。因此，对于战略段（如冷启动或曝光不足的库存）而言，在目标分布 \(\mathcal{Q}\)（其加重了这些段）下，\(\mathbf{x}_H\) 可能与记录分布 \(\mathcal{P}(\pi_t)\) 下的情况存在显著差异。

### 2.1. 对内生信号的过度依赖

为了激励对学习动态进行语义感知控制，我们首先在一个最小设定中说明病理现象。考虑一个线性预测器 \(f_{\mathbf{w}}(\mathbf{x}) = \mathbf{w}_C^\top \mathbf{x}_C + \mathbf{w}_H^\top \mathbf{x}_H\)，训练目标是最小化记录分布 \(\mathcal{P}\)（由部署诱导）下的期望损失。假设 \(\mathbf{x}_H\) 在 \(\mathcal{P}\) 下是强预测性的，因为它聚合了受曝光条件限制的证据，并在所选的记录上下文中解释了方差；而 \(\mathbf{x}_C\) 是中等预测性的，但广泛可用。如果学习算法从一开始就同时观测到 \((\mathbf{x}_C, \mathbf{x}_H)\)，它通常会分配较大权重给 \(\mathbf{x}_H\)。

Representation Curriculum: 分阶段训练以实现稳健排序与分配

相似文章

主动学习作为高效的PRP重排序器

训练数据教会强化学习记忆代理什么：记忆增强问答中课程效果的实证研究

通用推理的可迁移性：多领域RLVR的自动化课程设计

作为高效PRP重排序器的主动学习器

任务分解引导的重排序实现自适应智能体技能检索

提交意见反馈