标签
QPILOTS是一种方法,通过使用从噪声中间状态投影的评论家梯度,在推理时引导流策略,在离线到在线强化学习基准上实现了最先进的性能,并在不修改基础策略的情况下改进了预训练的VLA模型。
Dual Advantage Fields (DAF) 是一种用于离线目标条件强化学习的策略提取方法,它将双线性对偶价值模型转化为局部优势信号,通过学习预测特征位移的动作效应模型,并根据位移与目标方向的对齐程度对动作进行评分。该方法被 ICML 2026 决策研讨会接收,在 OGBench 的移动、操控和谜题任务中展示了改进的性能。