标签
Dual Advantage Fields (DAF) 是一种用于离线目标条件强化学习的策略提取方法,它将双线性对偶价值模型转化为局部优势信号,通过学习预测特征位移的动作效应模型,并根据位移与目标方向的对齐程度对动作进行评分。该方法被 ICML 2026 决策研讨会接收,在 OGBench 的移动、操控和谜题任务中展示了改进的性能。