统一建模与探索的生成式自动竞价
摘要
本文介绍了Guide框架,该框架结合了决策Transformer、Q值引导和逆动力学模块,在数字广告自动出价中平衡探索与安全性,并在公开数据集和模拟拍卖中展示了有效性。
arXiv:2605.19457v1 公告类型:新
摘要:自动出价是现代数字广告的核心。早期基于规则的方法缺乏适应性,后续的强化学习方法将出价建模为马尔可夫决策过程,但在长期依赖关系上存在困难。最近的生成模型显示出潜力,但它们缺乏明确的机制来平衡探索与安全性,仅依赖动作扰动或轨迹引导,且没有安全保障措施。这导致广告平台的探索效率低下,且财务风险升高。
为了弥补这一不足,我们提出了GUIDE(统一建模与探索的生成式自动出价),这是一个将定向探索与安全回退机制协同整合的框架。GUIDE采用决策Transformer(DT)对历史出价动作和环境状态转移进行联合建模。Q值模块通过正则化约束引导DT的探索,而逆动力学模块(IDM)利用DT预测的未来状态推断稳健且行为一致的动作,作为安全的策略回退。然后,Q值模块在这两个选项之间自适应地选择最终动作,平衡探索与安全性。这些组件共同形成了一个集成的“探索-保障-选择”流水线,统一了效率与安全性。
我们在公开数据集、模拟拍卖环境以及淘宝(中国领先的广告平台)的大规模在线部署上进行了广泛实验。结果表明,GUIDE在所有场景中始终优于最先进的基线。在真实部署中,GUIDE取得了显著提升:广告GMV增长+4.10%,广告点击增长+1.40%,广告成本增长+1.66%,广告ROI增长+3.52%,证明了其有效性和强大的工业适用性。
查看缓存全文
缓存时间: 2026/05/20 08:29
# 基于统一建模与探索的生成式自动竞价 来源: https://arxiv.org/html/2605.19457 张明明,航空航天信息与可信计算教育部重点实验室,武汉大学网络空间安全学院,淘宝天猫集团,武汉,中国,[email protected] 庄飞庆,淘宝天猫集团,杭州,中国,[email protected] 李娜,航空航天信息与可信计算教育部重点实验室,武汉大学网络空间安全学院,淘宝天猫集团,武汉,中国,[email protected] 孙圣杰,淘宝天猫集团,杭州,中国,[email protected] 陈晓伟,淘宝天猫集团,杭州,中国,[email protected] 朱俊雄,淘宝天猫集团,杭州,中国,[email protected] 肖飞,淘宝天猫集团,杭州,中国,[email protected] 杨克平,淘宝天猫集团,杭州,中国,[email protected] 邹利新,航空航天信息与可信计算教育部重点实验室,武汉大学网络空间安全学院,武汉大学,武汉,中国,[email protected] 李晨亮,航空航天信息与可信计算教育部重点实验室,武汉大学网络空间安全学院,武汉大学,武汉,中国,[email protected] (2026) ###### 摘要 自动竞价已成为现代数字广告的核心组成部分。早期方法主要基于规则,虽然易于实现,但难以适应快速变化的环境。随后的强化学习方法将竞价建模为马尔可夫决策过程,但在捕捉长期依赖关系方面能力有限。尽管最近的生成式模型取得了令人鼓舞的进展,但它们通常缺乏明确的机制来平衡探索与安全性。它们往往仅依赖简单的动作扰动或轨迹引导来促进竞价探索,并且关键的是,它们缺少安全回退机制。这一局限性导致探索效率低下,并显著增加了广告平台的财务风险。 为弥补这一差距,我们提出了一种名为**Guide**(基于统一建模与探索的生成式自动竞价)的新框架,该框架协同整合了定向探索与安全回退机制。**Guide**使用决策Transformer(DT)联合建模历史竞价动作和环境状态转移。一个Q值模块通过正则化约束引导DT的探索。同时,逆动力学模块(IDM)利用DT预测的未来状态推断鲁棒且行为一致的动作,从而提供安全的策略回退。随后,Q值模块从这两个选项中自适应地选择最终动作,平衡探索与安全性。这三个组件共同形成一个集成的“探索-保障-选择”管道,统一了效率与安全性。 我们在公开数据集、模拟拍卖环境以及中国领先的广告平台淘宝的大规模在线部署中进行了全面实验。结果表明,**Guide**在所有场景下均一致优于最先进的基线方法。在真实世界的在线部署中,**Guide**取得了显著改进:广告GMV提升+4.10%,广告点击量提升+1.40%,广告花费提升+1.66%,广告ROI提升+3.52%,证明了其有效性和强大的工业适用性。 自动竞价,生成式决策模型,决策Transformer ††版权:acm授权 ††期刊年份:2026 ††版权:cc ††会议:第49届ACM SIGIR信息检索研究与发展国际会议;2026年7月20-24日,澳大利亚墨尔本维多利亚州。††书标题:第49届ACM SIGIR信息检索研究与发展国际会议论文集(SIGIR '26),2026年7月20-24日,澳大利亚墨尔本维多利亚州 ††doi:3805712.3809661 ††isbn:979-8-4007-2599-9/2026/07 ††ccs:应用计算 在线拍卖 ††ccs:信息系统 计算广告 ## 1. 引言 随着数字广告生态系统的快速演进,全球在线广告市场在2025年已达到千亿美元规模,传统的人工广告竞价方法难以满足实时响应和大规模优化的需求 (Borissov 等,2010; Wen 等,2022)。自动竞价技术不仅提升了广告投放效率,还能根据不同的营销目标(如点击量、转化率或投资回报率)实现更精确的预算分配和资源管理 (Zhang 等,2014; Li 等,2024; Liu 等,2020; Yuan 等,2022; Zhang 等,2023; Yuan 等,2013; Li and Tang, 2022)。其在提升广告效果和降低运营成本方面日益增长的重要性,使其成为当代广告策略中的核心工具之一。 参见图注 **图1:广告竞价中的不同建模方法。** \(a_t\) 和 \(s_t\) 分别表示动作和状态,\(\hat{a}_t^*\) 表示更好的动作。Q代表Q值模块。 早期的自动竞价方法通常依赖基于规则的策略,如PID控制。尽管这些方法易于实现,但它们缺乏适应动态广告环境的能力。为解决这些局限性,强化学习被广泛应用于自动竞价任务,将其建模为马尔可夫决策过程 (MDP) (Puterman, 2014; Boutilier 等,1999),其中广告主在每次拍卖中的竞价行为被视为一个决策动作,并根据环境状态(如用户特征、累积奖励和市场动态)选择最优动作 (Fujimoto 等,2019; Kostrikov 等,2021)。然而,由于MDP只考虑当前状态和动作,它们往往无法充分捕捉广告环境中的复杂时间依赖性和动态性,使得在面对长期依赖和复杂的用户行为模式时难以做出准确决策 (Cai 等,2017)。 最近,生成式模型展示出了有效建模复杂历史依赖关系的能力,并且能够发现改进的竞价策略,使其成为当前研究的焦点 (Jiang 等,2025; Gao 等,2025; Li 等,2025; Guo 等,2024)。基于决策Transformer (DT) (Chen 等,2021) 的模型,如 GAS (Li 等,2025) 和 GAVE (Gao 等,2025),对竞价动作序列进行建模;而基于决策扩散 (DD) (Lu 等,2025) 的模型,如 AIGB (Guo 等,2024) 和 EGDB (Peng 等,2025),对广告环境状态序列进行建模。这些模型通过整合精心设计的探索策略,取得了令人瞩目的成果。 然而,在这些进展背后隐藏着一个根本性挑战:如何在鼓励探索的同时确保平台的财务安全。众所周知,探索与可靠性之间存在固有的张力。在广告拍卖这种分秒必争的高风险环境中,无约束的探索无异于赌博。尽管现有方法通过动作扰动和价值引导等技术促进探索,但它们普遍缺乏明确的安全回退机制。当模型探索到未知或危险的策略空间时,系统无法回退到已知的、鲁棒的基线策略,这导致探索过程不仅效率低下,而且异常危险。这引出了一个关键的开问题:**我们如何设计一个统一的框架,能够协同整合定向、高效的探索与鲁棒的安全回退机制,从而同时实现高性能和运营可靠性?** 为应对这一挑战,我们提出了**Guide**(基于统一建模与探索的生成式自动竞价),这是一个集成探索有效性和安全性的统一框架。如图1所示,**Guide**联合建模环境动态和历史竞价动作序列,并辅以基于Q值的动作优化与选择模块,以平衡探索与安全性。具体而言,我们采用DT作为骨干网络,同时生成未来状态轨迹和候选竞价动作序列,从而更深入地理解当前竞价环境。为了实现定向探索,我们集成了一个Q值模块,通过正则化约束引导DT的探索方向。同时,我们引入了一个逆动力学模块(IDM),该模块利用DT预测的未来状态,从当前状态与预测状态之间的转移中推断出合理的竞价动作。通过设计,DT大胆探索潜在高回报的策略,而IDM则有效模仿训练数据中嵌入的行为策略,产生更安全、更稳定的动作,在高风险探索期间作为可靠的回退方案。Q值模块进一步在DT和IDM提出的动作之间自适应地选择,确保探索与安全性之间的平衡权衡。这三个组件协同工作,实现了在安全保证下的高效竞价探索,从而产生更智能、更鲁棒的自动竞价。为了实现有效的模型优化,我们还采用了两阶段训练流程进行高效的模型学习。 我们对**Guide**在公开离线数据集和模拟广告拍卖环境中进行了全面评估,结果表明,在所有设置下,**Guide**均显著优于现有的最先进基线方法。此外,我们将**Guide**部署在中国最大的电子商务平台之一淘宝上,并实现了广告GMV提升4.10%、广告点击量提升1.40%、广告花费提升1.66%以及广告ROI提升3.52%,这证明了**Guide**在自动竞价领域的有效性和领先性能。总之,我们的贡献如下: - • 我们首次提出了一个统一建模范式,在单个生成式框架内联合捕捉环境动态和竞价动作,同时建模广告环境的演进和历史竞价序列。这种设计显著增强了对复杂动态广告生态系统的理解,以进行策略优化。 - • 我们提出了一种新颖的竞价机制,整合了“探索–保障–选择”,通过有机组合三个核心组件:基于决策Transformer的主动探索模块、基于IDM的安全回退模块以及基于Q值的动作选择器,有效解决了高风险广告场景中探索与安全性之间的根本性矛盾。 - • 我们在公开离线数据集、模拟场景和真实商业环境中进行了全面实验。结果表明,我们提出的**Guide**在所有指标和设置下均显著优于现有的最先进自动竞价基线方法。 ## 2. 相关工作 在在线广告领域,自动竞价方法已演变为四大类别:PID控制、强化学习、生成式模型和基于LLM的智能体。早期的竞价方法基于PID控制理论 (Chen 等,2011; Yang 等,2019; Zhang 等,2016; Knospe, 2006; Borase 等,2021),存在若干实际问题,最突出的是严重依赖精细的参数调整以及对动态市场环境的适应能力有限。为克服这些固有限制,研究界将注意力转向了强化学习,催生了更先进的竞价算法,如 USCB (He 等,2021) 和 SORL (Mou 等,2022)。这些算法利用基本的强化学习技术,如 IQL (Kostrikov 等,2021) 和 CQL (Kumar 等,2020),从广告日志数据集中学习行为策略,实现全自动竞价。然而,它们在充分利用日志中的丰富历史信息方面仍然相对低效。 随后,生成式方法被引入,它们创新性地将广告竞价任务重新定义为序列生成问题。生成式工作可进一步分为两类:基于决策扩散 (Ajay 等,2022; Zhu 等,2024) 和基于决策Transformer (Chen 等,2021) 的方法。AIGB (Guo 等,2024) 开创了一种新的生成式竞价范式,使用决策扩散对广告状态序列进行建模,并使用逆动力学模型生成动作。随后,EGDB (Peng 等,2025) 引入了专家信息来优化生成的轨迹。而 GAS (Li 等,2025) 和 GAVE (Gao 等,2025) 则基于决策Transformer (Chen 等,2021) 网络生成竞价动作。它们设计了蒙特卡洛后...(此处原文截断,后续内容未提供)
相似文章
学习探索:通过探索感知策略优化扩展代理推理
本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。
别赌博,用GAMBLe:AI驱动研究系统的分析框架
该论文介绍了GAMBLe,一个将AI驱动研究系统分解为生成器、评估器、发现机制和预算的框架,揭示了组件交互如何塑造优化景观。在NP困难问题上的实验表明,没有普遍最佳的配置,强调了谨慎选择组件的必要性。
Agent Bazaar:在多智能体市场中实现经济对齐
介绍Agent Bazaar,一个用于评估LLMs经济对齐的多智能体模拟框架,识别出算法不稳定性和Sybil欺骗等失败模式,并通过针对性强化学习训练出一个超越前沿模型的9B模型。
通过理解监督引导统一多模态模型中的视觉生成
本文介绍了 UNO,这是一种以理解为导向的后训练框架,利用理解任务作为监督信号,以增强统一多模态模型中的图像生成和编辑能力。
通过Q集合进行UCB探索
OpenAI提出了一种针对深度强化学习的新型探索策略,使用具有上置信界(UCB)的Q函数集合,在Atari基准上展现了显著的性能提升。