off-policy-evaluation

标签

Cards List
#off-policy-evaluation

用于LLM智能体离线策略评估的自回归扩散世界模型

arXiv cs.LG · 2天前 缓存

提出了Adwm,一种用于LLM智能体离线策略评估的自回归扩散世界模型,能够从预先收集的轨迹中实现可靠的价值估计,无需在线交互。

0 人收藏 0 人点赞
#off-policy-evaluation

人类参与循环的上下文老虎机用于短期租赁动态定价:历史预热与审批门控在线学习的结构等价性

arXiv cs.LG · 4天前 缓存

本文介绍了用于短期租赁动态定价的人类参与循环门控老虎机(HITL-GB),表明先前策略下的历史定价数据在结构上等同于在线策略预热数据,将冷启动从约150轮减少到约30轮。

0 人收藏 0 人点赞
#off-policy-evaluation

难民匹配收益对离策略评估选择的鲁棒性

arXiv cs.LG · 2026-05-11 缓存

本文通过逆概率加权(IPW)和增广逆概率加权(AIPW)等离策略方法,展示了难民匹配影响评估的鲁棒性,从而证实了此前关于算法分配难民的研究成果。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈