个性化市场政策:在竞争性目标与受限实验下的优化——来自招聘市场的证据

arXiv cs.LG 论文

摘要

本文提出一个集成框架,用于在双边招聘市场中个性化免费价值阈值,以应对竞争性目标和受限实验。部署的系统在目标指标上实现了显著提升,同时遵守了参与度安全护栏。

arXiv:2606.30932v1 公告类型:新 摘要:双边市场连接着利益往往冲突的不同用户群体——改善一方的结果可能会损害另一方的体验。为解决这一挑战,我们在一个连接数百万雇主和求职者的双边招聘市场中,部署了一个集成框架,用于个性化免费价值阈值——即管理招聘信息免费服务范围的政策。我们的个性化政策在目标指标上实现了统计学上显著且经济上可观的提升,同时遵守了参与度安全护栏约束。 直接应用标准的提升方法在此处不充分,原因有二。首先,跨边外部性要求多目标优化:最大化雇主侧指标可能会损害求职者参与度,且不同岗位细分领域的效果差异显著。其次,市场干扰要求进行集群级随机化,将我们限制在少数离散处理水平——这实质上是一种正向性违反,排除了为连续处理设计的方法。 我们贡献了一个包含三个组件的集成框架。我们的基于集成的混合排序模型分别针对目标指标和安全护栏指标,与单目标方法相比,在同等目标增益下将安全护栏风险降低了10%以上。一种处理效果外推方法将我们的估计从有限的实验变化扩展到未测试的政策水平,依赖于我们通过实证验证的单调性假设。最后,我们介绍了生产部署情况,其中发布后的数据证实了外推的准确性以及安全护栏的合规性。 我们的部署系统表明,即使在实验严重受限且不同目标竞争的情况下——这是许多现实市场中的常见条件——原则性的方法论也能实现有意义的个性化。
查看原文
查看缓存全文

缓存时间: 2026/07/01 05:32

# 在竞争目标与受限实验下个性化市场政策:来自求职市场的证据
来源:https://arxiv.org/html/2606.30932
\(2026\)

###### 摘要。

双边市场连接着利益经常冲突的不同用户群体——改善一方的结果可能会损害另一方的体验。为了解决这一挑战,我们在一个连接数百万雇主和求职者的双边求职市场中,部署了一个用于个性化免费价值阈值(一项管理职位列表免费服务范围的政策)的集成框架。我们的个性化政策在目标指标上带来了统计显著且经济意义上的提升,同时满足参与度护栏约束。

标准提升方法的直接应用在此处存在两个方面的不足。首先,跨边外部性要求多目标优化:最大化雇主侧指标可能损害求职者参与度,且不同职位细分领域的效应差异显著。其次,市场干扰需要聚类级别随机化,这限制了我们可以使用的离散处理水平数量——实际上是一种正性假设违反,排除了针对连续处理设计的方法。

我们贡献了一个包含三个组件的集成框架。我们的基于集成学习的混合排序分别对目标和护栏指标进行建模,与单目标方法相比,在同等目标增益下将护栏风险降低了10%以上。一种处理效应外推方法将我们的估计从有限的实验变化扩展到未经测试的政策水平,依赖单调性假设,我们通过实证验证了该假设。最后,我们展示了生产部署,上线后数据证实了外推的准确性和护栏合规性。

我们的部署系统表明,即使在实验严重受限且不同目标相互竞争(这是许多现实市场共同的特征)的情况下,原则性的方法论也能实现有意义的个性化。

提升建模,因果推断,异质性处理效应,双边市场,多目标优化

††版权:cc ††期刊年份:2026 ††ISBN:979-8-4007-2259-2/2026/08 ††doi:10.1145/3770855.3818460 ††会议:第32届ACM SIGKDD知识发现与数据挖掘会议V.2,2026年8月9日至13日,韩国济州岛 ††论文集:第32届ACM SIGKDD知识发现与数据挖掘会议V.2 (KDD '26),2026年8月9日至13日,韩国济州岛 ††ccs:信息系统 电子商务 ††ccs:信息系统 在线广告 ††ccs:计算方法 因果推理与诊断 ††ccs:应用计算 经济学

## 1. 引言

### 1.1. 市场政策个性化问题

双边市场面临一个基本矛盾:优化一方的体验往往会影响另一方。求职平台必须在雇主变现与求职者参与度之间取得平衡;拼车平台需要权衡司机收入与乘客等待时间;电子商务市场需要评估卖家结果与买家满意度。这些权衡不仅仅是业务约束——它们是平台经济的结构性特征 (Edelman and Wright, 2015) (https://arxiv.org/html/2606.30932#bib.bib10) ; Horton, 2010 (https://arxiv.org/html/2606.30932#bib.bib15) 。

参见图注 图 1. 双边市场政策权衡。图展示了不同免费价值阈值政策下,市场可持续性与求职者参与度之间的权衡。我们通过免费价值阈值(即职位列表在需要付费推广之前的免费服务范围参数)在求职市场中解决这一挑战 (图 1 (https://arxiv.org/html/2606.30932#S1.F1) ) 。这项政策体现了市场的一个核心权衡:推动雇主转化,同时保护求职者参与度。合理设定阈值至关重要:过于宽松的阈值会降低变现激励,挑战长期可持续性;过于严格的阈值能维护平台可持续性,但可能损害求职者体验。

大多数平台对所有职位发布采用统一政策。然而,职位发布在求职者参与度、变现潜力和响应模式上存在显著差异,使得统一政策并非最优。这种异质性创造了根据细分特有响应个性化阈值的机会——在保护求职者参与度的同时改善变现。

### 1.2. 技术挑战

提升建模已成为政策个性化的成熟方法,它通过估计条件平均处理效应 (CATE) 来优化干预措施 (Devriendt et al., 2018) (https://arxiv.org/html/2606.30932#bib.bib9) ; Künzel et al., 2019 (https://arxiv.org/html/2606.30932#bib.bib18) 。然而,在我们的设置中,两个相互关联的挑战使得直接应用不足:

挑战1:跨边外部性需要多目标优化。在双边市场中,直接影响一方的政策通常会对另一方产生间接效应——这是一种跨边外部性。例如,调整免费价值阈值可能改善平台可持续性,但如果获取理想职位受到限制,则可能损害求职者参与度。关键在于,这些效应因细分而异:有些职位在转化时不损失参与度;有些则损失参与度而不转化。最终,市场政策往往同时影响多个利益相关者群体,且响应具有异质性。

传统的提升框架专注于最大化单一目标,如转化 (Gubela et al., 2020) (https://arxiv.org/html/2606.30932#bib.bib12) ; Lemmens and Gupta, 2020 (https://arxiv.org/html/2606.30932#bib.bib19) ; Devriendt et al., 2021 (https://arxiv.org/html/2606.30932#bib.bib8) 。最近的扩展引入了预算约束和ROI阈值 (Google Marketing Solutions, 2023  (https://arxiv.org/html/2606.30932#bib.bib11) ; Verbeke et al., 2023 (https://arxiv.org/html/2606.30932#bib.bib27) ; De Vos et al., 2026 (https://arxiv.org/html/2606.30932#bib.bib7) ) ,但这些公式将财务约束叠加到主要目标上,而不是对交互的跨边效应进行建模。我们的设置需要明确平衡雇主侧指标与求职者侧参与度,现有的单目标方法无法直接捕捉这一点。

挑战2:市场干扰限制处理变化。跨边外部性会产生干扰效应,使实验设计复杂化。近期工作 (Johari et al., 2022) (https://arxiv.org/html/2606.30932#bib.bib16) ; Holtz et al., 2024 (https://arxiv.org/html/2606.30932#bib.bib14) 表明,市场竞争会产生干扰,导致在个体级随机化下估计有偏。最小化干扰的聚类级随机化能解决这一偏差,但限制了实验能力:较少的随机化单元将测试限制在少数离散处理水平上,而非标准剂量响应方法所需的连续变化 (Hirano and Imbens, 2004) (https://arxiv.org/html/2606.30932#bib.bib13) ; Kennedy et al., 2017 (https://arxiv.org/html/2606.30932#bib.bib17) ; Athey et al., 2019 (https://arxiv.org/html/2606.30932#bib.bib4) 。

### 1.3. 我们的方法与贡献

我们开发了一个用于正性违反和跨边外部性下政策优化的集成框架——这两个挑战在市场环境中共存,但文献中通常分开处理。我们的方法联合解决了:(1) 在不使用有争议权重的情况下平衡跨边目标,以及 (2) 在实验仅提供离散处理水平时优化连续政策。

贡献1:基于集成学习的多目标混合排序。单目标提升建模忽略了跨边外部性;标准的多目标方法通常需要有争议的权重或复杂的帕累托前沿导航。我们贡献了一个混合排序框架,该框架:

- • 分别对目标和护栏指标中的因果提升进行建模
- • 使用集成估计来处理市场中常见的溢出效应
- • 与单目标优化相比,在同等目标增益下实现**超过10%的护栏风险降低**

我们的方法在给定护栏约束的情况下,在效率前沿上确定一个优选点,避免了有争议的权重协商以及导航所有帕累托最优解的操作复杂性。

贡献2:有限处理变化下的处理效应外推。聚类随机化的市场实验将处理变化限制在少数几个离散水平上——不足以支持标准的连续处理方法。我们贡献了一种原则性的外推方法,该方法:

- • 将CATE估计从有限的实验水平扩展到未经测试的政策值
- • 在有界范围内使用经过验证的线性假设
- • 提供外推适当的显式条件
- • 展示外推准确性的部署后验证

贡献3:包含上线后验证的生产部署。工业提升应用通常仅进行离线评估。我们贡献了:

- • 来自服务数百万职位发布和求职者的系统的部署证据
- • 上线后验证,显示外推预测与观察到的效应一致
- • 关于集成方法和线性外推何时成功的实践者经验

这些贡献构成了一个集成的方法论。混合排序(贡献1)需要政策水平超出实验变化的可靠CATE估计,这由外推方法(贡献2)提供。生产部署(贡献3)验证了该框架在真实条件下按设计运行。它们共同构成了一个解决多边市场中常见问题类——在有限处理变化下的多目标政策优化——的原则性方法,而此类问题缺乏既定的解决方案。

### 1.4. 论文组织

第2节 (https://arxiv.org/html/2606.30932#S2) 回顾相关工作。第3节 (https://arxiv.org/html/2606.30932#S3) 介绍我们的方法论:基于集成学习的CATE估计、处理效应外推和多目标混合排序。第4节 (https://arxiv.org/html/2606.30932#S4) 展示离线分析的实证结果:CATE模型验证、混合排序结果、政策设计和外推鲁棒性。第5节 (https://arxiv.org/html/2606.30932#S5) 涵盖生产部署:系统架构、上线后结果、外推验证和实践者经验。第6节 (https://arxiv.org/html/2606.30932#S6) 讨论局限性和未来工作。第7节 (https://arxiv.org/html/2606.30932#S7) 总结。

## 2. 相关工作

我们将工作定位在三个研究流的交叉点:多目标市场优化、异质性处理效应估计和连续剂量-响应建模。据我们所知,没有既定的框架能同时解决 (A) 具有异质性跨边效应的多目标优化和 (B) 当处理变化限于少数离散水平时的政策优化——这种组合在市场环境中很常见。

### 2.1. 平台中的多目标优化

平台在不同利益相关者群体之间面临固有的多目标权衡 (Edelman and Wright, 2015) (https://arxiv.org/html/2606.30932#bib.bib10) ; Horton, 2010 (https://arxiv.org/html/2606.30932#bib.bib15) 。近期工作通过加权目标 (Abdollahpouri et al., 2020) (https://arxiv.org/html/2606.30932#bib.bib2) (需要有争议的权衡权重)或帕累托优化 (Lin et al., 2019) (https://arxiv.org/html/2606.30932#bib.bib20) (需要复杂的前沿选择)来解决这些权衡。

大多数提升建模工作侧重于单目标优化 (Gubela et al., 2020) (https://arxiv.org/html/2606.30932#bib.bib12) ; Lemmens and Gupta, 2020 (https://arxiv.org/html/2606.30932#bib.bib19) ; Devriendt et al., 2021 (https://arxiv.org/html/2606.30932#bib.bib8) 。最近的扩展引入了预算约束 (Google Marketing Solutions, 2023  (https://arxiv.org/html/2606.30932#bib.bib11) ; Verbeke et al., 2023 (https://arxiv.org/html/2606.30932#bib.bib27) ) 和ROI阈值 (De Vos et al., 2026 (https://arxiv.org/html/2606.30932#bib.bib7) ) ,但这些将财务约束叠加到主要目标上,而不是对市场两边的结果进行建模。

差距:现有的多目标框架需要有争议的权重规范或复杂的帕累托前沿导航。我们的护栏约束方法提供了一种更简单的机制:在明确约束另一个目标的同时最大化一个目标。这自然地与不同团队拥有不同指标的组织结构相一致,并在效率前沿上确定单一推荐政策。

### 2.2. 异质性处理效应估计

条件平均处理效应 (CATE) 估计已迅速发展。元学习器 (Künzel et al., 2019) (https://arxiv.org/html/2606.30932#bib.bib18) 、因果森林 (Athey et al., 2019 (https://arxiv.org/html/2606.30932#bib.bib4) ; Wager and Athey, 2018 (https://arxiv.org/html/2606.30932#bib.bib28) ) 和双稳健方法 (Chernozhukov et al., 2018) (https://arxiv.org/html/2606.30932#bib.bib6) 为二值处理提供了灵活的方法。X-学习器 (Künzel et al., 2019) (https://arxiv.org/html/2606.30932#bib.bib18) 是我们的基础估计器。

工业部署展示了CATE的实际价值:Uber的CausalML库 (Chen et al., 2020) (https://arxiv.org/html/2606.30932#bib.bib5) 实现了个性化激励分配;Booking.com (Moraes et al., 2023) (https://arxiv.org/html/2606.30932#bib.bib23) 和快手 (Meng et al., 2024) (https://arxiv.org/html/2606.30932#bib.bib21) 的应用展示了用于资源分配的异质性因果学习。然而,这些应用假设有足够的处理变化——无论是来自观测数据还是多臂实验——而我们的设置缺乏这一点。

差距:标准的CATE估计器需要感兴趣政策空间上的处理变化。我们的设置要求外推超出观测到的处理水平。

### 2.3. 连续处理的剂量-响应建模

连续剂量-响应估计的方法已显著进步。广义倾向得分方法 (Hirano and Imbens, 2004) (https://arxiv.org/html/2606.30932#bib.bib13) 将Rosenbaum-Rubin框架扩展到连续处理。R-学习器 (Nie and Wager, 2021) (https://arxiv.org/html/2606.30932#bib.bib24) 提供了双稳健估计,而广义随机森林 (GRF) (Athey et al., 2019) (https://arxiv.org/html/2606.30932#bib.bib4) 提供非参数灵活性。近期关于剂量-响应估计的工作 (Kennedy et al., 2017) (https://arxiv.org/html/2606.30932#bib.bib17) 处理高维混杂因素。

正性假设的违反对这些方法构成了根本挑战:“在连续干预下进行因果推断的一个挑战是,正性假设通常被违反” (Schomaker et al., 2024) (https://arxiv.org/html/2606.30932#bib.bib25) 。实际设置中,离散水平上的支持通常稀疏。

差距:连续处理方法假设处理空间上具有密集支持——即正性。聚类随机化的市场实验必然违反这一假设:有限的处理变化是解决干扰的直接结果。

相似文章

Agent Bazaar:在多智能体市场中实现经济对齐

Hugging Face Daily Papers

介绍Agent Bazaar,一个用于评估LLMs经济对齐的多智能体模拟框架,识别出算法不稳定性和Sybil欺骗等失败模式,并通过针对性强化学习训练出一个超越前沿模型的9B模型。