online-learning

标签

Cards List
#online-learning

学习触发:大型强子对撞机上的强化学习

arXiv cs.LG · 5天前 缓存

本文提出了一种强化学习方法,用于动态调整大型强子对撞机的触发阈值,在维持本底率的同时提高信号效率,并首次在真实对撞数据上进行了演示。

0 人收藏 0 人点赞
#online-learning

贝叶斯上下文赌博机在实时仓库分拣优化中的比较研究

arXiv cs.LG · 5天前 缓存

本文对贝叶斯上下文赌博机(BCB)、XGBoost和线性回归在电商仓库实时分拣转向优化中进行了比较研究,结果显示BCB实现了2.03%的奖励提升,并具有优越的在线学习和推理延迟性能。

0 人收藏 0 人点赞
#online-learning

@GoSailGlobal: https://x.com/GoSailGlobal/status/2068879365711032708

X AI KOLs Timeline · 2026-06-22 缓存

gwern 提出了'守护天使'方案,主张训练一个模仿用户本人的 LLM 数字分身,以解决通用 AI 助手的委托-代理问题和安全风险,并给出了从对齐理论到技术实现的完整路线图。

0 人收藏 0 人点赞
#online-learning

基于时变需求的约束赌博机在线LLM选择

arXiv cs.LG · 2026-06-17 缓存

本文提出了一种约束随机赌博机算法,用于在时变任务需求以及异构的准确性、延迟和成本配置下在线选择大型语言模型,并在遗憾和约束违反方面提供了理论保证。

0 人收藏 0 人点赞
#online-learning

基于数字孪生模拟的治疗响应优化临床决策支持AI系统

arXiv cs.AI · 2026-06-17 缓存

本文提出了一种在线自适应的临床决策支持AI系统,该系统整合了治疗效果估计、数字孪生模拟和强化学习,以在安全、临床医生监督的方式下推荐治疗方案,并在合成模拟器和TCGA卵巢癌数据集上进行了验证。

0 人收藏 0 人点赞
#online-learning

嵌入模型路由的策略遗憾:具有低秩专家的上下文赌博机

arXiv cs.LG · 2026-06-16 缓存

本文将嵌入模型路由形式化为具有低秩专家的对抗性上下文线性赌博机,提出了Hypentropy策略梯度(HPG)算法,该算法实现了O~(s√(MT))的策略遗憾,避免了维度灾难。

0 人收藏 0 人点赞
#online-learning

通过Kolmogorov-Arnold网络在FPGA上实现超快机器学习

Hacker News Top · 2026-06-09 缓存

本文介绍了作者的硕士论文,该论文利用Kolmogorov-Arnold网络(KAN)在FPGA上实现超快机器学习,通过自定义硬件架构实现亚微秒级推理和在线学习。文章引用了两篇已接收的论文:基于LUT评估的KANELÉ(FPGA 2026最佳论文奖)以及一种在FPGA上进行在线学习的方法(ICML 2026)。

0 人收藏 0 人点赞
#online-learning

面向上下文LLM级联的在线Pandora's Box

arXiv cs.AI · 2026-06-08 缓存

本文介绍了一种面向自适应查询和选择LLM API的在线上下文Pandora's Box模型,提出了一种结合GMM估计与UCB风格置信区间的学习方法,并证明了维度相关的遗憾界。

0 人收藏 0 人点赞
#online-learning

CLaaS:面向样本高效在线学习的持续学习即服务

arXiv cs.LG · 2026-06-05 缓存

CLaaS是一个系统,用于对部署中的LLM智能体进行持续学习,利用经验回放实现样本高效的在线适应。

0 人收藏 0 人点赞
#online-learning

基于状态感知动态检索的Web智能体在线技能学习

arXiv cs.AI · 2026-06-04 缓存

本文提出了SGDR(State-Grounded Dynamic Retrieval,状态感知动态检索),一种面向Web智能体的在线技能学习方法,支持逐步、感知当前状态的技能复用,而非静态的任务级检索。在WebArena上的实验表明,SGDR结合GPT-4.1可达到37.5%的成功率,相较于强基线取得了约10.6%的相对提升。

0 人收藏 0 人点赞
#online-learning

自适应对手重复博弈中的遗憾最小化

Hugging Face Daily Papers · 2026-06-04 缓存

本文介绍了重复策略遗憾(RP-Regret),一种用于自适应对手重复博弈中遗憾最小化的博弈论度量,并提出了三种算法来最小化它,表明这样做可以导致如猎鹿博弈中的合作均衡。

0 人收藏 0 人点赞
#online-learning

SHARP:基于睡眠的层次化加速重放用于长程非平稳时序模式识别

arXiv cs.AI · 2026-06-02 缓存

SHARP 提出了一种受生物学启发的框架,将记忆积累与模式识别分离,在离线睡眠阶段使用加速重放来学习流式环境中的长程非平稳时序模式。它在 text8 和 PG-19 上提升了上下文保持能力,同时保持了计算效率。

0 人收藏 0 人点赞
#online-learning

通过Rockafellar-Uryasev共形推断实现条件风险价值的对抗鲁棒控制

arXiv cs.LG · 2026-06-02 缓存

本文提出了一种在线、无分布假设的框架,用于在对抗性和非平稳环境中控制条件风险价值(CVaR),具有渐近保证,并在投资组合风险管理和大型语言模型(LLM)毒性缓解中具有应用。

0 人收藏 0 人点赞
#online-learning

UniScale: 通过模型路由与测试时扩展的在线联合优化实现自适应统一推理扩展

arXiv cs.AI · 2026-06-01 缓存

提出UniScale,一种在线框架,通过上下文多臂老虎机优化统一模型路由和测试时扩展,以在LLM推理中实现更好的质量-成本权衡。

0 人收藏 0 人点赞
#online-learning

通用多类别直推式在线学习

arXiv cs.LG · 2026-06-01 缓存

本文介绍了Level-Constrained-Littlestone-Littlestone (LCLL)树,以刻画通用直推式在线分类中的可学习性,其中标签空间可能无界,并证明了最优错误率要么有界,要么呈对数增长。

0 人收藏 0 人点赞
#online-learning

私有随机决策理论在线学习中的最优间隔依赖遗憾

arXiv cs.LG · 2026-05-29 缓存

本文通过为私有随机决策理论在线学习提供最优间隔依赖遗憾算法,解决了COLT开放问题,达到了阶 (log K)/Δ_min + (log K)/ε 的下界。

0 人收藏 0 人点赞
#online-learning

通过算法等价实现隐凸损失的在线学习:最优遗憾、几何障碍与赌博机反馈

arXiv cs.LG · 2026-05-27 缓存

本文证明,在海森兼容性条件下,在线梯度下降方法能够针对隐凸损失实现最优的√T遗憾值,解决了对抗性在线学习中的开放问题。同时,还将结果扩展至单点赌博机反馈,给出了T^{3/4}的期望遗憾界。

0 人收藏 0 人点赞
#online-learning

优化数字治疗干预:在内生依从性下的在线学习

arXiv cs.LG · 2026-05-26 缓存

本文提出了一个数字治疗决策支持框架,将患者依从性建模为内生变量,并利用在线学习优化治疗建议,实现了次线性遗憾。

0 人收藏 0 人点赞
#online-learning

面向移动众包中LLM微调的真实在线偏好聚合

arXiv cs.LG · 2026-05-26 缓存

提出了一种用于移动众包中LLM微调的真实在线偏好聚合机制,解决了策略性工人误报问题,并实现了次线性遗憾。

0 人收藏 0 人点赞
#online-learning

面向多模态在线分布式工业异常检测的参数高效多类智能调度

arXiv cs.LG · 2026-05-26 缓存

本文提出MODIAD,一种面向多模态在线分布式工业异常检测的框架,通过多类智能调度问题和资源高效类级低秩自适应(REC-LoRA)策略解决资源约束问题。在MVTec 3D-AD和Eyecandies数据集上的实验展示了卓越的性能和效率。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈