基于路径策略梯度的非短视主动特征获取
摘要
本文提出了 NM-PPG,这是一种利用路径策略梯度优化昂贵预测场景中顺序特征选择的非短视主动特征获取方法。
arXiv:2605.05511v1 公告类型:new
摘要:主动特征获取(AFA)考虑的是特征获取成本高昂的预测问题,学习者为每个实例自适应地决定获取哪些特征值以及何时停止并进行预测。AFA 可以表述为部分可观测马尔可夫决策过程(POMDP),这自然地契合了顺序决策的视角。在本文中,我们提出了基于此表述的非短视路径策略梯度(NM-PPG)这一新的 AFA 方法。我们引入了一种获取过程的连续松弛,使得能够通过完整的获取轨迹计算路径梯度,在避免标准得分函数策略梯度高方差的同时,允许对非短视获取策略进行端到端优化。为了更好对齐训练与部署,我们进一步开发了一种直通 rollout 方案,在前向传播中遵循硬特征获取,而在反向传播中通过相应的软松弛进行反向传播。我们通过熵正则化和分阶段温度锐化来稳定优化过程。在合成数据集和真实世界数据集上的实验表明,与最先进的 AFA 基线相比,NM-PPG 表现出更优越的性能。
查看缓存全文
缓存时间: 2026/05/08 07:42
# 通过路径策略梯度实现非短视主动特征获取 来源: https://arxiv.org/abs/2605.05511 查看 PDF (https://arxiv.org/pdf/2605.05511) > 摘要:主动特征获取(Active Feature Acquisition, AFA)考虑的是特征获取成本高昂的预测问题,学习器需要自适应地决定为每个实例获取哪些特征值,以及何时停止获取并进行预测。AFA 可以被表述为部分可观察马尔可夫决策过程(POMDP),这自然地引入了一种序贯决策视角。在本文中,我们提出了非短视路径策略梯度(Non-Myopic Pathwise Policy Gradients, NM-PPG),这是一种基于该表述的新 AFA 方法。我们引入了获取过程的连续松弛,使得可以通过整个获取轨迹计算路径梯度,从而避免了标准评分函数策略梯度带来的高方差问题,同时允许对非短视获取策略进行端到端优化。为了更好地将训练与部署对齐,我们进一步开发了一种直通 rollout 方案,该方案在前向传播中遵循硬特征获取,而在反向传播中通过相应的软松弛进行反向传播。我们通过熵正则化和分阶段温度锐化来稳定优化过程。在合成数据集和真实世界数据集上的实验表明,与最先进的 AFA 基线相比,NM-PPG 取得了更优越的性能。 ## 提交历史 来自: Linus Aronsson [查看邮箱 (https://arxiv.org/show-email/190947df/2605.05511)] **\[v1\]**2026年5月6日 星期三 23:24:54 UTC \(850 KB\)
相似文章
基于梯度外推的策略优化
本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。
通过预测梯度催化剂加速多目标贝叶斯优化
本文介绍了一种通用加速机制,用于多目标贝叶斯优化,该机制利用高斯过程预测梯度作为辅助信号来增强现有的采集函数,从而在有限的评估预算下更快地收敛到全局帕累托集。
基于稀疏查询特征梯度优化的导向生成
本文介绍了Prototype-Based Sparse Steering方法,该方法将稀疏自编码器应用于大语言模型的注意力查询激活,然后在推理过程中使用梯度优化来引导生成朝向目标行为。该方法在一个逻辑规划任务和一个风格化教育领域中得到了验证,展示了可解释且解耦的控制能力。
用于稳定多智能体策略学习的度量梯度投影
介绍HPML,一种将多智能体系统的联合更新场投影到度量梯度分量上以稳定和改进多智能体强化学习的方法。它提供了理论保证,并在CTDE基准测试上展示了改进的稳定性和回报。
多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法
本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。