基于路径策略梯度的非短视主动特征获取

arXiv cs.LG 2026/05/08 04:00 论文

摘要

本文提出了 NM-PPG，这是一种利用路径策略梯度优化昂贵预测场景中顺序特征选择的非短视主动特征获取方法。

arXiv:2605.05511v1 公告类型：new 摘要：主动特征获取（AFA）考虑的是特征获取成本高昂的预测问题，学习者为每个实例自适应地决定获取哪些特征值以及何时停止并进行预测。AFA 可以表述为部分可观测马尔可夫决策过程（POMDP），这自然地契合了顺序决策的视角。在本文中，我们提出了基于此表述的非短视路径策略梯度（NM-PPG）这一新的 AFA 方法。我们引入了一种获取过程的连续松弛，使得能够通过完整的获取轨迹计算路径梯度，在避免标准得分函数策略梯度高方差的同时，允许对非短视获取策略进行端到端优化。为了更好对齐训练与部署，我们进一步开发了一种直通 rollout 方案，在前向传播中遵循硬特征获取，而在反向传播中通过相应的软松弛进行反向传播。我们通过熵正则化和分阶段温度锐化来稳定优化过程。在合成数据集和真实世界数据集上的实验表明，与最先进的 AFA 基线相比，NM-PPG 表现出更优越的性能。

查看原文

查看缓存全文

缓存时间: 2026/05/08 07:42

# 通过路径策略梯度实现非短视主动特征获取

来源: https://arxiv.org/abs/2605.05511
查看 PDF (https://arxiv.org/pdf/2605.05511)

> 摘要:主动特征获取（Active Feature Acquisition, AFA）考虑的是特征获取成本高昂的预测问题，学习器需要自适应地决定为每个实例获取哪些特征值，以及何时停止获取并进行预测。AFA 可以被表述为部分可观察马尔可夫决策过程（POMDP），这自然地引入了一种序贯决策视角。在本文中，我们提出了非短视路径策略梯度（Non-Myopic Pathwise Policy Gradients, NM-PPG），这是一种基于该表述的新 AFA 方法。我们引入了获取过程的连续松弛，使得可以通过整个获取轨迹计算路径梯度，从而避免了标准评分函数策略梯度带来的高方差问题，同时允许对非短视获取策略进行端到端优化。为了更好地将训练与部署对齐，我们进一步开发了一种直通 rollout 方案，该方案在前向传播中遵循硬特征获取，而在反向传播中通过相应的软松弛进行反向传播。我们通过熵正则化和分阶段温度锐化来稳定优化过程。在合成数据集和真实世界数据集上的实验表明，与最先进的 AFA 基线相比，NM-PPG 取得了更优越的性能。

## 提交历史

来自: Linus Aronsson [查看邮箱 (https://arxiv.org/show-email/190947df/2605.05511)] **\[v1\]**2026年5月6日 星期三 23:24:54 UTC \(850 KB\)

基于路径策略梯度的非短视主动特征获取

相似文章

基于梯度外推的策略优化

通过预测梯度催化剂加速多目标贝叶斯优化

基于稀疏查询特征梯度优化的导向生成

用于稳定多智能体策略学习的度量梯度投影

多模块 GRPO：组合策略梯度与提示优化的语言模型程序方法

提交意见反馈