contextual-bandits

标签

Cards List
#contextual-bandits

面向上下文LLM级联的在线Pandora's Box

arXiv cs.AI · 3天前 缓存

本文介绍了一种面向自适应查询和选择LLM API的在线上下文Pandora's Box模型,提出了一种结合GMM估计与UCB风格置信区间的学习方法,并证明了维度相关的遗憾界。

0 人收藏 0 人点赞
#contextual-bandits

人类参与循环的上下文老虎机用于短期租赁动态定价:历史预热与审批门控在线学习的结构等价性

arXiv cs.LG · 2026-06-03 缓存

本文介绍了用于短期租赁动态定价的人类参与循环门控老虎机(HITL-GB),表明先前策略下的历史定价数据在结构上等同于在线策略预热数据,将冷启动从约150轮减少到约30轮。

0 人收藏 0 人点赞
#contextual-bandits

捕捉移动子空间:超越平稳性的低秩老虎机

arXiv cs.LG · 2026-05-21 缓存

本文研究了分段平稳的低秩线性上下文老虎机,提出了SPSC算法,该算法实现了与内在秩(而非环境维度)成比例的动态遗憾,并刻画了在标量反馈下子空间恢复的辨识边界。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈