advantage-functions

标签

Cards List
#advantage-functions

Dual Advantage Fields

arXiv cs.LG · 2026-06-04 缓存

Dual Advantage Fields (DAF) 是一种用于离线目标条件强化学习的策略提取方法,它将双线性对偶价值模型转化为局部优势信号,通过学习预测特征位移的动作效应模型,并根据位移与目标方向的对齐程度对动作进行评分。该方法被 ICML 2026 决策研讨会接收,在 OGBench 的移动、操控和谜题任务中展示了改进的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈