DRIVE：基于分布与检索增强的出价及价值评估

arXiv cs.LG 2026/06/15 04:00 论文

摘要

本文介绍了DRIVE，一个统一的基于Transformer的离线自动出价框架，它将候选动作生成与决策制定解耦，结合了分布性动作建模、检索增强的候选生成和基于价值的评估，以在预算和成本约束下提高出价性能。

arXiv:2606.14192v1 Announce Type: new 摘要：自动出价是实时广告系统的核心组成部分，其决策必须在预算和成本约束下优化长期性能，同时在线探索具有高风险。离线强化学习和近期的基于Transformer的序列建模在从记录数据中学习出价策略方面展现出潜力，但其单峰和纯参数化形式常常将多个有效出价策略折叠成次优的平均动作，并在稀疏或长尾流量下表现不可靠。为缓解这些局限性，我们提出了DRIVE（基于分布与检索增强的出价及价值评估），一个统一的基于Transformer的框架，用于离线自动出价，将候选动作生成与决策制定解耦。DRIVE结合了分布性动作建模、从高质量历史决策中检索增强的候选生成以及基于价值的评估，在推理时选择最有前途的出价。在AuctionNet及其他离线强化学习基准上的大量实验表明，DRIVE consistently improves bidding performance and generalizes well across multiple Transformer-based methods.

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:12

# DRIVE: 基于分布和检索增强的竞价与价值评估
来源：https://arxiv.org/html/2606.14192
Haochen WangShangqin MaoXun YangQianlong XieXingxing WangXuri GeYing ZhouZhiwei Xu
###### 摘要
自动竞价是实时广告系统的核心组件，决策必须在预算和成本约束下优化长期表现，而在线探索的风险过高。离线强化学习以及更近期的基于Transformer的序列建模，在从日志数据中学习竞价策略方面展现了潜力，但它们的单峰和纯参数化公式常常将多种有效竞价策略压缩为次优的平均动作，并在稀疏或长尾流量下表现不可靠。为了缓解这些局限，我们提出了DRIVE（基于分布和检索增强的竞价与价值评估），一个统一的基于Transformer的框架，它将候选动作生成与决策分离，用于离线自动竞价。DRIVE结合了分布动作建模、从高质量历史决策中检索增强候选生成，以及基于价值的评估，以在推理时选择最有希望的出价。在AuctionNet和额外离线强化学习基准上的大量实验表明，DRIVE持续改进竞价性能，并在多种基于Transformer的方法上具有良好的泛化能力。机器学习，ICML

## 1 引言

在线广告已成为数字化流量变现的主要渠道，广告主通过实时竞价（RTB）争夺印象机会（Yuan等人，2013（https://arxiv.org/html/2606.14192#bib.bib1）；Wang和Yuan，2015（https://arxiv.org/html/2606.14192#bib.bib2））。现代广告平台广泛采用自动竞价机制（Balseiro等人，2021a（https://arxiv.org/html/2606.14192#bib.bib3），b（https://arxiv.org/html/2606.14192#bib.bib4）；Deng等人，2021（https://arxiv.org/html/2606.14192#bib.bib5）；Ou等人，2023（https://arxiv.org/html/2606.14192#bib.bib6））以优化长期表现，同时满足实际约束，如预算限制和目标每次行动成本（CPA）（He等人，2021（https://arxiv.org/html/2606.14192#bib.bib7）；Wu等人，2018（https://arxiv.org/html/2606.14192#bib.bib8））。然而，竞价环境固有动态性和不确定性，使得通过静态启发式或在线强化学习（RL）方法学习稳健策略变得困难，原因是这些方法会给广告主带来相关风险。

参见图题
图1：DT风格方法在实际竞价中的两个挑战。左图：平均动作陷阱，单峰动作建模将多种有效竞价模式压缩为次优平均动作。右图：稀疏数据和长尾流量，当前方法在低密度区域生成不可靠动作，尽管数据集中存在高质量决策。

考虑到实际广告拍卖中在线探索的高风险和成本，离线RL（Levine等人，2020（https://arxiv.org/html/2606.14192#bib.bib28）），如保守Q学习（CQL）（Kumar等人，2020（https://arxiv.org/html/2606.14192#bib.bib21）），不仅具有吸引力，而且成为必要。它使得仅从记录的历史数据中学习竞价策略成为可能，而无需与实时市场交互。关键的是，自动竞价本质上是一个顺序决策过程，因为当前支出直接约束未来的竞价能力。因此，基于Transformer的序列建模方法，如决策Transformer（DT）（Chen等人，2021（https://arxiv.org/html/2606.14192#bib.bib23）），通过基于注意力的架构（Vaswani等人，2017（https://arxiv.org/html/2606.14192#bib.bib41））利用长程时间依赖关系，展现了巨大潜力。基于这一工作方向，近期涌现出大量DT风格的变体，并将其应用于广告场景（Li等人，2025（https://arxiv.org/html/2606.14192#bib.bib11）；Gao等人，2025（https://arxiv.org/html/2606.14192#bib.bib12））。然而，直接将这些DT风格架构应用于实际竞价场景仍然具有挑战性，如图1（https://arxiv.org/html/2606.14192#S1.F1）所示。一个突出的挑战是“平均动作”陷阱，它源于相似的市场状态通常允许多种不同但有效的竞价策略，例如相对较高或较低的出价。这些方法中的单峰或确定性建模倾向于将这种多样行为压缩为次优的平均动作，既不足以激进到赢得拍卖，也不足以保守到控制成本。除此之外，当前基于Transformer的方法的纯参数化性质意味着缺乏保留高质量历史决策的显式机制，这使得它们在长尾流量或稀疏数据场景下容易生成不可靠动作。

为了解决这些局限，我们提出了DRIVE（基于分布和检索增强的竞价与价值评估），一个统一的基于Transformer的离线自动竞价框架，它结合了分布动作建模、检索增强候选生成和基于价值的决策。与标准方法不同，DRIVE将候选动作生成与决策分离开来。具体来说，我们首先使用高斯混合模型（GMM）（Reynolds，2018（https://arxiv.org/html/2606.14192#bib.bib42））对动作空间进行建模，使策略能够捕捉多样但有效的竞价模式。此外，检索机制编码当前状态并从相似状态中检索高质量历史动作作为补充候选，提供显式的非参数支持，缓解稀疏数据场景下的不可靠动作。进一步引入一个价值评论家，在推理时评估生成的和检索的候选，并选择最有希望的出价。这些组件共同使DRIVE能够稳健有效地进行离线竞价。此外，跨多个设置的大量实验证明了DRIVE的有效性。我们的主要贡献总结如下：

- •我们提出了DRIVE，一个统一的基于Transformer的自动竞价框架，它集成了分布动作建模、检索增强候选生成和基于价值的评估。
- •我们在代表性离线竞价基准AuctionNet（Su等人，2024（https://arxiv.org/html/2606.14192#bib.bib36））上进行了大量实验，展示了DRIVE在自动竞价场景中的有效性。
- •我们进一步证明，DRIVE通过无缝集成到多个DT风格方法中，并在多个离线RL基准上持续提升性能，具有广泛适用性。

## 2 相关工作

### 2.1 自动竞价策略的演化

早期自动竞价研究主要依赖静态优化或控制理论框架。启发式竞价策略从线性（Perlich等人，2012（https://arxiv.org/html/2606.14192#bib.bib17））到非线性函数（Zhang等人，2014（https://arxiv.org/html/2606.14192#bib.bib18）），仅基于每次印象的预测价值（如预测点击率pCTR）推导出价。为考虑预算约束，基于控制的方法（包括PID控制器（Chen等人，2011（https://arxiv.org/html/2606.14192#bib.bib19）；Lee等人，2013（https://arxiv.org/html/2606.14192#bib.bib24）；Yang等人，2019（https://arxiv.org/html/2606.14192#bib.bib26））和智能节奏控制（Xu等人，2015（https://arxiv.org/html/2606.14192#bib.bib25））被开发出来以平滑消费。然而，这些方法本质上是短视的：它们专注于即时收益或预定义的启发式规则，无法在高随机性的拍卖环境中优化长期目标。

为克服静态策略的短视性，强化学习（RL）被引入将竞价建模为顺序决策过程。Cai等人（2017（https://arxiv.org/html/2606.14192#bib.bib13））开创性地将竞价建模为约束马尔可夫决策过程（MDP）（Puterman，1990（https://arxiv.org/html/2606.14192#bib.bib43））的模型化框架。然而，依赖显式环境建模的方法通常带来大量计算开销，并面临模拟与现实之间的差异问题（Wu等人，2018（https://arxiv.org/html/2606.14192#bib.bib8））。因此，后续研究转向了无模型RL范式（Wu等人，2018（https://arxiv.org/html/2606.14192#bib.bib8））。值得注意的是，Liu等人（2020（https://arxiv.org/html/2606.14192#bib.bib16））提出了一种动态策略，利用TD3算法（Fujimoto等人，2018（https://arxiv.org/html/2606.14192#bib.bib27））直接优化连续竞价因子，绕过了复杂市场建模的需求。然而，在实际竞价系统中，在线RL通常不可行，因为探索性动作可能带来巨大财务成本。因此，离线RL（Levine等人，2020（https://arxiv.org/html/2606.14192#bib.bib28））仅从记录的历史数据中学习策略，已成为自动竞价的主流实用范式。

### 2.2 自动竞价的离线强化学习

尽管具有实际吸引力，离线RL在自动竞价场景中引入了根本性挑战。核心问题是分布偏移，即学习策略可能利用日志数据支持较差的动作，导致价值估计不可靠和决策不安全。为解决这一问题，先前工作提出了保守或样本内学习方法，包括BCQ（Fujimoto等人，2019（https://arxiv.org/html/2606.14192#bib.bib20））、CQL（Kumar等人，2020（https://arxiv.org/html/2606.14192#bib.bib21））和IQL（Kostrikov等人，2022（https://arxiv.org/html/2606.14192#bib.bib22）），旨在缓解对分布外（OOD）动作的高估（Levine等人，2020（https://arxiv.org/html/2606.14192#bib.bib28））。虽然上述基于价值的离线RL方法能有效应对OOD高估，但它们通常在长程信用分配和复杂时序依赖方面遇到困难。这一局限促使了将RL重新表述为生成式序列建模的范式转变（Janner等人，2021（https://arxiv.org/html/2606.14192#bib.bib29）；Chen等人，2021（https://arxiv.org/html/2606.14192#bib.bib23））。值得注意的是，决策Transformer（DT）（Chen等人，2021（https://arxiv.org/html/2606.14192#bib.bib23））利用自注意力机制生成以期望未来回报为条件的动作，有效捕捉长程依赖关系。基于这一框架，近期方法试图将价值信息整合到生成式策略中。例如，GAVE（Gao等人，2025（https://arxiv.org/html/2606.14192#bib.bib12））在训练中引入价值引导的探索，而GAS（Li等人，2025（https://arxiv.org/html/2606.14192#bib.bib11））采用后训练搜索与多评论家投票来优化动作。峰值回报贪心切片（Xu等人，2026（https://arxiv.org/html/2606.14192#bib.bib50））提供了一种以数据为中心的范式来改进基于Transformer的离线RL，通过选择高回报子轨迹构建更具信息量的训练序列。除基于Transformer的模型外，DiffBid（Guo等人，2024（https://arxiv.org/html/2606.14192#bib.bib15））采用条件扩散对竞价分布进行建模。然而，除了迭代采样导致的过高推理延迟外，它难以在高动态和长程环境中有效学习逆向扩散过程，导致轨迹预测不准确和策略性能次优。

尽管取得了这些进展，DT风格的生成式方法在实际竞价场景中仍然有限。它们通常依赖单峰回归目标和点估计解码，无法捕捉最优竞价行为固有的多峰性质。因此，多种不同但有效的竞价策略常常被压缩为平均动作，导致性能次优。相比之下，DRIVE显式对动作分布进行建模以保留多样竞价模式，从而在复杂和不确定的市场条件下实现更稳健和有效的决策。

### 2.3 检索增强决策

检索增强生成（RAG）最早在自然语言处理（NLP）中引入，通过从大型外部语料库中检索证据来缓解参数模型中的幻觉和过时知识问题（Lewis等人，2020（https://arxiv.org/html/2606.14192#bib.bib30）；Guu等人，2020（https://arxiv.org/html/2606.14192#bib.bib33）；Borgeaud等人，2022（https://arxiv.org/html/2606.14192#bib.bib34））。通过将生成过程建立在检索文档的基础上，RAG在开放域问答等知识密集型任务中提高了事实准确性和可解释性。受这些优势启发，检索机制最近被引入RL中以更好地利用过去经验。DT-Mem（Kang等人，2024（https://arxiv.org/html/2606.14192#bib.bib31））通过内部记忆增强决策Transformer以减少多任务设置中的遗忘，而RA-DT（Schmied等人，2024（https://arxiv.org/html/2606.14192#bib.bib32））从外部索引中检索相关子轨迹以扩展长程决策的上下文长度。这些研究表明，检索可以作为显式的非参数组件，通过重用高质量历史经验来提升决策质量。受这一工作方向启发，我们的方法利用检索来增强稀疏和长尾数据场景下竞价决策的鲁棒性。

## 3 预备知识

### 3.1 RTB环境与最优竞价

考虑一个广告推广活动，包含NN个顺序的印象机会，运行在实时竞价（RTB）环境中，采用广义第二价格（GSP）拍卖机制（Lucier等人，2012（https://arxiv.org/html/2606.14192#bib.bib44））。对于每次印象ii，广告主提交出价bib_i。拍卖的获胜结果用二元指示变量xi∈{0,1}x_i \in \{0,1\}表示，相应支付记为cic_i，等于第二高出价。每次印象关联一个价值viv_i，如点击或转化。广告主的目标是在总预算约束BB和一系列关键绩效指标（KPI）约束（如每次行动成本CPA或投资回报率ROI）下，最大化累计总价值∑i=1Nvixi\sum_{i=1}^N v_i x_i。该目标可表述为以下约束优化问题：

max{xi}i=1N\displaystyle\max_{\{x_i\}_{i=1}^N}\quad∑i=1Nvixi\displaystyle\sum_{i=1}^N v_i x_i
s.t.∑i=1Ncixi≤B,\displaystyle\sum_{i=1}^N c_i x_i \leq B,
(1)
Gj(x1:N)≤Kj,∀j.\displaystyle\mathcal{G}_j(x_{1:N}) \leq \mathcal{K}_j,\quad \forall j.

其中Gj(⋅)\mathcal{G}_j(\cdot)表示第jj个KPI对应的约束函数，Kj\mathcal{K}_j指定其目标阈值。先前研究（He等人，2021（https://arxiv.org/html/2606.14192#bib.bib7）；Zhang等人，2014（https://arxiv.org/html/2606.14192#bib.bib18））表明，在温和假设下，最优竞价策略可以从Kar

DRIVE：基于分布与检索增强的出价及价值评估

相似文章

统一建模与探索的生成式自动竞价

A3M: 自适应、对抗性与多目标学习用于重复拍卖中的战略投标

DRIFT: 解耦轨迹展开与重要性加权微调以实现高效多轮优化

PersonaDrive：面向闭环驾驶仿真的基于人类风格的检索增强VLA智能体

HOBA: 面向自适应在线广告的分层在线策略竞价代理

提交意见反馈