标签
提出了Adwm,一种用于LLM智能体离线策略评估的自回归扩散世界模型,能够从预先收集的轨迹中实现可靠的价值估计,无需在线交互。
本文介绍了用于短期租赁动态定价的人类参与循环门控老虎机(HITL-GB),表明先前策略下的历史定价数据在结构上等同于在线策略预热数据,将冷启动从约150轮减少到约30轮。
本文通过逆概率加权(IPW)和增广逆概率加权(AIPW)等离策略方法,展示了难民匹配影响评估的鲁棒性,从而证实了此前关于算法分配难民的研究成果。