off-policy-evaluation

#off-policy-evaluation

跨域上下文赌博机的离线策略评估与学习

arXiv cs.LG ↗ · 5小时前缓存

本文介绍了面向上下文赌博机的跨域离线策略评估与学习（OPE/L），允许利用多个源域的日志数据来改进目标域中的策略评估与学习，这些目标域面临少样本数据、确定性日志策略和新动作等挑战性条件。

0 人收藏 0 人点赞

#off-policy-evaluation

arXiv cs.AI ↗ · 2026-06-08 缓存

本文研究当决策主体（智能体）为了回应策略而策略性地修改其协变量时的离线策略评估（OPE）。该方法利用事后解释进行局部披露，以揭示智能体的前策略协变量，并构建策略价值的双重稳健估计量。

0 人收藏 0 人点赞

#off-policy-evaluation

arXiv cs.LG ↗ · 2026-06-05 缓存

提出了Adwm，一种用于LLM智能体离线策略评估的自回归扩散世界模型，能够从预先收集的轨迹中实现可靠的价值估计，无需在线交互。

0 人收藏 0 人点赞

#off-policy-evaluation

arXiv cs.LG ↗ · 2026-06-03 缓存

本文介绍了用于短期租赁动态定价的人类参与循环门控老虎机（HITL-GB），表明先前策略下的历史定价数据在结构上等同于在线策略预热数据，将冷启动从约150轮减少到约30轮。

0 人收藏 0 人点赞

#off-policy-evaluation

arXiv cs.LG ↗ · 2026-05-11 缓存

本文通过逆概率加权（IPW）和增广逆概率加权（AIPW）等离策略方法，展示了难民匹配影响评估的鲁棒性，从而证实了此前关于算法分配难民的研究成果。

0 人收藏 0 人点赞