基于局部披露的具有策略性主体的离线策略评估
摘要
本文研究当决策主体(智能体)为了回应策略而策略性地修改其协变量时的离线策略评估(OPE)。该方法利用事后解释进行局部披露,以揭示智能体的前策略协变量,并构建策略价值的双重稳健估计量。
arXiv:2606.07308v1 公告类型:新
摘要:我们研究了策略行为下的离线策略评估(OPE),其中决策主体(或智能体)通过策略性地修改其协变量来响应决策者的策略。这种行为导致策略依赖的协变量偏移,打破了现有方法中协变量外生于策略的标准假设。相关工作通过施加诸如重复交互或完全了解智能体响应行为等强假设来应对这一挑战,这大大限制了其应用于OPE的适用性。相比之下,我们考虑一次性OPE场景,其中决策者仅对智能体的响应行为有部分了解。我们的关键洞察是,通过事后解释披露局部信息,可以在适应之前揭示智能体的前策略协变量,从而减轻策略行为所导致的信息损失。利用这一结构,我们估计了智能体响应的统计模型,并构建了策略价值的双重稳健估计量。通过假设智能体的成本敏感性服从条件对数正态分布,我们建立了所提估计量的一致性,并经验性地验证了我们的方法。从更广的角度来看,我们的结果凸显了交互设计如何通过揭示智能体策略响应中原本隐藏的结构来减轻信息不对称。
查看缓存全文
缓存时间: 2026/06/08 09:15
# 基于局部信息披露的策略性智能体离线策略评估 来源: https://arxiv.org/html/2606.07308 Kiet Q. H. Vo¹², Abbavaram Gowtham Reddy³, Julian Rodemann¹⁴, Siu Lun Chau⁵, Krikamol Muandet¹ ¹**通讯作者**: [email protected] ²理性智能实验室, CISPA亥姆霍兹信息安全中心, 德国萨尔布吕肯 ³关系机器学习实验室, CISPA亥姆霍兹信息安全中心, 德国萨尔布吕肯 ⁴统计系, 慕尼黑大学, 德国慕尼黑 ⁵认知与计算实验室, 南洋理工大学, 新加坡 ###### 摘要 本文研究策略性行为下的离线策略评估(OPE)问题,其中决策主体(或智能体)通过策略性地修改自身协变量来响应决策者的策略。这种行为导致策略相关的协变量偏移,打破了现有方法中协变量外生于策略的标准假设。现有相关工作通过施加强假设(如重复交互或完全了解智能体的响应行为)来应对这一挑战,这极大地限制了其在 OPE 中的适用性。相比之下,我们考虑一种一次性 OPE 场景,其中决策者仅部分了解智能体的响应行为。我们的关键见解是:通过事后解释披露局部信息,可以揭示智能体在适应之前的策略前协变量,从而减轻策略性行为导致的信息损失。利用这一结构,我们估计了智能体响应的统计模型,并构建了一个用于策略价值的双鲁棒估计量。通过假设智能体的成本敏感性服从条件对数正态分布,我们证明了所提出估计量的一致性,并经验性地验证了我们的方法。更广泛地说,我们的结果强调了交互设计如何通过揭示智能体策略性响应中原本隐藏的结构来减轻信息不对称性。† ††脚注: 已被 ICML 2026 接收。 ## 引言 个体层面数据的丰富使得决策者(DM)能够在包括医疗(Murphy, 2003; Hamburg and Collins, 2010)、教育(Mandel et al., 2014)、贷款(Kilbertus et al., 2020)和推荐系统(Joachims et al., 2021)等广泛领域设计并部署个性化策略。在这些应用中,尤其是在医疗等高 stakes(高风险)场景下,直接部署新策略通常不可行,因为不当的决策可能导致重大伤害、经济损失或不公平结果。因此,策略性能的评估不能通过实验进行,而必须基于在另一种决策策略下历史收集的数据来评估。这个问题通常被称为离线策略评估(OPE)问题(Uehara et al., 2022)。当决策被个性化时,智能体(即受决策规则约束的个体)可能会策略性地修改其可观测协变量以获得更有利的决策。例如,如果大学招生政策更看重标准化考试成绩(如 GRE),申请者可能会将更多精力投入到这些考试上(Vo et al., 2024);同样,当银行引入新的贷款政策时,客户可能会改变其财务行为以满足资格标准(Tsirtsis and Gomez Rodriguez, 2020)。这种策略性响应导致了智能体协变量分布的**策略相关**偏移:随着策略改变,其所作用的人群也发生变化。这一现象在策略分类(Hardt et al., 2016)和表演性预测(Perdomo et al., 2020)中得到了广泛研究。由于策略性能通常定义为在诱导人群上的平均值,该领域的一个核心见解是:评估新策略需要预测协变量分布将如何响应;如果不能做到这一点,就等于在错误的诱导人群下评估策略,从而估计出错误的策略价值。然而,这一挑战在 OPE 文献中很大程度上被忽视了。 (图1说明) (a) 两个智能体修改到相同的协变量。 (b) 全局信息披露 (GID) vs. 局部信息披露 (LID)。 图1:左图 (a) 展示了一种情况:两个具有不同策略前协变量 \(x^b_\bullet, x^b_\diamond\) 和成本函数 \(c_\bullet, c_\diamond\) 的智能体适应到相同的协变量值 \(x^s\)。如果策略前协变量未被观测(这在全局信息披露中发生,如右图 (b) 所示),那么这两个智能体就无法区分。这使得决策者更难推断另一个策略 \(\pi'\) 对协变量偏移的影响。右图 (b) 说明了 GID(决策者公开其策略属性)和 LID(决策者暂不披露信息,直到智能体提供关于自身的信息)中的交互过程。 关于离线设置中策略性行为的现有工作主要源于策略分类文献(Hardt et al., 2016; Levanon and Rosenfeld, 2021; Rosenfeld and Rosenfeld, 2024)。为了使分析可行并进行均衡刻画,这些工作通常假设可以精确建模智能体的响应,或者其行为是同质的,通常通过一个**单一**和/或**已知**的成本函数来形式化智能体的协变量修改。尽管分析上方便,但这些假设在实践中很少成立。智能体的偏好和约束本质上是异质的,并且通常不被决策者观测到。因此,将这些方法直接应用于 OPE 可能会严重限制其实际效用,因为 OPE 最常用于支持现实世界中的决策。受此启发,我们研究策略性行为下的 OPE,同时放宽单一已知成本函数的假设。具体来说,我们允许智能体拥有异质成本函数,同时假设决策者只知道它们的共同组成部分,而不知道智能体特定的成本。当决策者采用局部信息披露(LID)时,这种放宽是可能的:LID 将策略的部分信息作为个性化反馈披露,例如通过事后解释(Tsirtsis and Gomez Rodriguez, 2020; Xie and Zhang, 2024; Vo et al., 2026);见图1(b)。至关重要的是,这种交互方案允许决策者在智能体进行策略性适应之前观察到其原始协变量(或**策略前协变量**)。观察策略前协变量至关重要,因为不同的智能体——拥有不同的基线特征和行为模型——可能策略性地修改到相同的最终协变量值。如果没有策略前信息,这些轨迹在观测上无法区分,从而无法将策略性修改与真实的基线特征分离开。图1(a) 说明了这一点。相比之下,在全局信息披露 (GID) 下,决策者将策略信息公之于众,并且只观察到适应后的协变量,从而失去了策略前信息,例如 Shavit et al. (2020); Harris et al. (2022b); Munro (2025); Cohen et al. (2024) 中的情况。虽然已有研究探讨了 LID 下的策略性行为(Tsirtsis and Gomez Rodriguez, 2020; Xie and Zhang, 2024; Vo et al., 2026),但他们主要关注在线学习和均衡分析。据我们所知,现有工作尚未利用策略前信息进行具有策略性智能体的 OPE,也未涉及具有异质且未知智能体行为的一次性学习。更广泛地说,GID 的这种局限性反映了一种**信息不对称性**:决策者仅在策略适应后观察智能体,因此无法获取关键的适应前信息。虽然 LID 是我们问题设定的一部分,但我们强调,实际上,LID 应被理解为决策者如何构建与智能体交互的一种设计选择,而非仅为实现估计而引入的限制性评估设置。在许多系统中,决策者有权决定是全局揭示策略信息还是通过个性化反馈揭示,而这种选择从根本上塑造了智能体的策略性响应以及可以从数据中推断出的信息。我们的工作将交互设计与推理结构之间的这种联系作为一种新的视角引入到具有异质且部分未知智能体行为的 OPE 研究中。从这个角度来看,我们的主要研究问题因此是双重的:(i) 在局部信息披露下,应如何设计披露规则以用于策略性行为下的 OPE,以及 (ii) 如何根据历史数据估计相应的策略价值?我们总结如下贡献: - •作为首个将 LID 应用于策略性行为下 OPE 的工作,我们扩展了基于动作建议的解释 (ARex)(Vo et al., 2026),并调整其解释规则以处理 OPE 中的协变量偏移(引理 2.2)。 - •我们证明,ARexes 作为 LID 的一种实例化,可用于推断智能体的行为模型。在一些结构假设下,我们证明未知参数的估计量是一致的(定理 2.6)。 - •我们提出了一个双鲁棒估计量,可以调整策略性协变量偏移,并在标准条件下证明了该估计量的一致性(定理 3.2)。所有证明均在附录中提供。 ## 局部披露下的策略性 OPE ### 2.1 问题形式化 我们以贷款场景(Harris et al., 2022a)作为贯穿示例,并考虑一个决策者(例如银行)与一群智能体(例如其客户)进行交互的设置。遵循先前的工作(Tsirtsis and Gomez Rodriguez, 2020; Harris et al., 2022b; Vo et al., 2024, 2026),我们假设智能体彼此独立地与决策者交互。因此,为便于表述,我们为单个智能体描述设定,并将异质智能体群体视为同一模型的具体实现。特别地,我们采用 Vo et al. (2026) 中的策略性智能体设定,并描述如下。 令 \(X^b \sim P_{X^b}\) 为智能体的协变量向量,\(x^b \in \mathcal{X}\) 为一个独立实现,代表智能体的可观测属性,例如现有债务或银行账户余额。在此阶段,由于智能体尚未修改其协变量,我们也称基础协变量 \(x^b\) 为他们的**策略前协变量**。我们假设协变量空间 \(\mathcal{X}\) 是离散的。这符合许多现实场景:决策者规定收集智能体的哪些信息,且连续值通常会被离散化。例如,银行可能仅记录粗略的、预定义的属性,如信用评分区间、收入范围和债务收入比类别。 一开始,决策者承诺执行一个决策策略 \(\pi: \mathcal{X} \to [0,1]\),该策略控制智能体获得正向处理(例如贷款申请被批准)的概率。令 \(T^b \mid x^b \sim \text{Bernoulli}(\pi(x^b))\) 为一个二元随机变量,表示分配给该智能体的处理,\(t^b \in \mathcal{T} = \{0,1\}\) 表示实现值。我们注意到,我们对(可能为随机的)处理策略 \(\pi\) 的表述与 OPE 中的先前工作是一致的;参见,例如,Uehara et al. (2020); Kallus et al. (2022)。此外,这种随机性在许多情况下是现实的,例如当决策者为了学习而希望随机化时(Kilbertus et al., 2020; Munro, 2025; Vo et al., 2024),或者这是信贷配给的结果时(Stiglitz and Weiss, 1981)。 **决策者的个性化反馈。** 如果智能体收到负向处理(\(t^b = 0\)),他们会以基于动作建议的解释 (ARex)(Vo et al., 2026)的形式获得个性化反馈,并被允许在重新申请前修改其可观测特征 \(x^b\)。我们将 Vo et al. (2026) 的 ARex 框架进行扩展,允许智能体接收包含 \(k \ge 2\) 条建议的解释 \(e\),即 \(e = \{(x^r_j), \pi(x^r_j)\}_{j=1}^k\),而不局限于只有两条建议。在我们的贷款示例中,这些建议可以告知智能体偿还更多债务或增加其储蓄账户余额。这类似于算法追索(Karimi et al., 2021; Harris et al., 2022a; König et al., 2026)的概念。此外,我们将这组推荐的特征更新称为 \(\mathcal{X}^r = \{x^r_j\}_{j=1}^k\),并使用 \(\tau: (x^b, \pi) \mapsto e\) 表示生成 ARex 的解释规则。对于给定的 \(k\),\(\mathcal{E} = \mathcal{X}^k \times [0,1]^k\) 表示 ARex 的空间,且 \(E\) 表示(随机的)解释。 **智能体的适应。** 遵循 Tsirtsis and Gomez Rodriguez (2020); Vo et al. (2026) 的做法,我们将智能体对其协变量向量的策略性修改建模为: \[ x^s \in \arg\max_{x \in \{x^b\} \cup \mathcal{X}^r} \underbrace{\{\pi(x) - c(x, x^b)\}}_{u(\pi, c, x, x^b)}, \]
相似文章
EDGE-OPD:利用证据引导的在线策略蒸馏内化特权上下文
本文提出了EDGE-OPD,一种针对大语言模型的在线策略自蒸馏改进方法,通过引导式采样和证据掩码来内化特权上下文,同时不损害通用能力,在稀有标记身份设定中取得了成功。
ODRPO:离散奖励的序数分解用于鲁棒策略优化
介绍了ODRPO,一个将离散奖励分解为序数二元指标的框架,旨在提升LLMs中基于AI反馈的强化学习(RLAIF)策略优化的鲁棒性,在最小开销下实现了高达14.8%的相对改进。
@louieworth: 新博客文章:On-Policy Distillation — 前景、陷阱与展望
这篇博客文章讨论了On-Policy Distillation (OPD),这是一种结合在线策略 rollout 与密集教师监督的技术,并重点介绍了其前景、三种失败模式以及作者关于该主题的新论文。
弱批评者造就强学习者:面向可扩展监督的在线策略批评蒸馏
提出使用弱模型作为批评者的在线策略批评蒸馏(OPCD),为强模型提供修正方向,从而增强推理能力和对齐,无需弱模型解决任务。
用于LLM智能体离线策略评估的自回归扩散世界模型
提出了Adwm,一种用于LLM智能体离线策略评估的自回归扩散世界模型,能够从预先收集的轨迹中实现可靠的价值估计,无需在线交互。