off-policy-evaluation

#off-policy-evaluation

用于LLM智能体离线策略评估的自回归扩散世界模型

arXiv cs.LG ↗ · 2天前缓存

提出了Adwm，一种用于LLM智能体离线策略评估的自回归扩散世界模型，能够从预先收集的轨迹中实现可靠的价值估计，无需在线交互。

0 人收藏 0 人点赞

#off-policy-evaluation

arXiv cs.LG ↗ · 4天前缓存

本文介绍了用于短期租赁动态定价的人类参与循环门控老虎机（HITL-GB），表明先前策略下的历史定价数据在结构上等同于在线策略预热数据，将冷启动从约150轮减少到约30轮。

0 人收藏 0 人点赞

#off-policy-evaluation

arXiv cs.LG ↗ · 2026-05-11 缓存

本文通过逆概率加权（IPW）和增广逆概率加权（AIPW）等离策略方法，展示了难民匹配影响评估的鲁棒性，从而证实了此前关于算法分配难民的研究成果。

0 人收藏 0 人点赞