online-learning

#online-learning

学习触发：大型强子对撞机上的强化学习

arXiv cs.LG ↗ · 5天前缓存

本文提出了一种强化学习方法，用于动态调整大型强子对撞机的触发阈值，在维持本底率的同时提高信号效率，并首次在真实对撞数据上进行了演示。

0 人收藏 0 人点赞

#online-learning

贝叶斯上下文赌博机在实时仓库分拣优化中的比较研究

arXiv cs.LG ↗ · 5天前缓存

本文对贝叶斯上下文赌博机（BCB）、XGBoost和线性回归在电商仓库实时分拣转向优化中进行了比较研究，结果显示BCB实现了2.03%的奖励提升，并具有优越的在线学习和推理延迟性能。

0 人收藏 0 人点赞

#online-learning

@GoSailGlobal: https://x.com/GoSailGlobal/status/2068879365711032708

X AI KOLs Timeline ↗ · 2026-06-22 缓存

gwern 提出了'守护天使'方案，主张训练一个模仿用户本人的 LLM 数字分身，以解决通用 AI 助手的委托-代理问题和安全风险，并给出了从对齐理论到技术实现的完整路线图。

0 人收藏 0 人点赞

#online-learning

基于时变需求的约束赌博机在线LLM选择

arXiv cs.LG ↗ · 2026-06-17 缓存

本文提出了一种约束随机赌博机算法，用于在时变任务需求以及异构的准确性、延迟和成本配置下在线选择大型语言模型，并在遗憾和约束违反方面提供了理论保证。

0 人收藏 0 人点赞

#online-learning

基于数字孪生模拟的治疗响应优化临床决策支持AI系统

arXiv cs.AI ↗ · 2026-06-17 缓存

本文提出了一种在线自适应的临床决策支持AI系统，该系统整合了治疗效果估计、数字孪生模拟和强化学习，以在安全、临床医生监督的方式下推荐治疗方案，并在合成模拟器和TCGA卵巢癌数据集上进行了验证。

0 人收藏 0 人点赞

#online-learning

嵌入模型路由的策略遗憾：具有低秩专家的上下文赌博机

arXiv cs.LG ↗ · 2026-06-16 缓存

本文将嵌入模型路由形式化为具有低秩专家的对抗性上下文线性赌博机，提出了Hypentropy策略梯度（HPG）算法，该算法实现了O~(s√(MT))的策略遗憾，避免了维度灾难。

0 人收藏 0 人点赞

#online-learning

通过Kolmogorov-Arnold网络在FPGA上实现超快机器学习

Hacker News Top ↗ · 2026-06-09 缓存

本文介绍了作者的硕士论文，该论文利用Kolmogorov-Arnold网络（KAN）在FPGA上实现超快机器学习，通过自定义硬件架构实现亚微秒级推理和在线学习。文章引用了两篇已接收的论文：基于LUT评估的KANELÉ（FPGA 2026最佳论文奖）以及一种在FPGA上进行在线学习的方法（ICML 2026）。

0 人收藏 0 人点赞

#online-learning

面向上下文LLM级联的在线Pandora's Box

arXiv cs.AI ↗ · 2026-06-08 缓存

本文介绍了一种面向自适应查询和选择LLM API的在线上下文Pandora's Box模型，提出了一种结合GMM估计与UCB风格置信区间的学习方法，并证明了维度相关的遗憾界。

0 人收藏 0 人点赞

#online-learning

CLaaS：面向样本高效在线学习的持续学习即服务

arXiv cs.LG ↗ · 2026-06-05 缓存

CLaaS是一个系统，用于对部署中的LLM智能体进行持续学习，利用经验回放实现样本高效的在线适应。

0 人收藏 0 人点赞

#online-learning

基于状态感知动态检索的Web智能体在线技能学习

arXiv cs.AI ↗ · 2026-06-04 缓存

本文提出了SGDR（State-Grounded Dynamic Retrieval，状态感知动态检索），一种面向Web智能体的在线技能学习方法，支持逐步、感知当前状态的技能复用，而非静态的任务级检索。在WebArena上的实验表明，SGDR结合GPT-4.1可达到37.5%的成功率，相较于强基线取得了约10.6%的相对提升。

0 人收藏 0 人点赞

#online-learning