policy-extraction

#policy-extraction

QPILOTS: 面向流策略的高效测试时Q引导

arXiv cs.LG ↗ · 3天前缓存

QPILOTS是一种方法，通过使用从噪声中间状态投影的评论家梯度，在推理时引导流策略，在离线到在线强化学习基准上实现了最先进的性能，并在不修改基础策略的情况下改进了预训练的VLA模型。

0 人收藏 0 人点赞

#policy-extraction

Dual Advantage Fields

arXiv cs.LG ↗ · 2026-06-04 缓存

Dual Advantage Fields (DAF) 是一种用于离线目标条件强化学习的策略提取方法，它将双线性对偶价值模型转化为局部优势信号，通过学习预测特征位移的动作效应模型，并根据位移与目标方向的对齐程度对动作进行评分。该方法被 ICML 2026 决策研讨会接收，在 OGBench 的移动、操控和谜题任务中展示了改进的性能。

0 人收藏 0 人点赞

policy-extraction

QPILOTS: 面向流策略的高效测试时Q引导

Dual Advantage Fields

提交意见反馈