标签
本文提出了一种强化学习方法,用于动态调整大型强子对撞机的触发阈值,在维持本底率的同时提高信号效率,并首次在真实对撞数据上进行了演示。
本文对贝叶斯上下文赌博机(BCB)、XGBoost和线性回归在电商仓库实时分拣转向优化中进行了比较研究,结果显示BCB实现了2.03%的奖励提升,并具有优越的在线学习和推理延迟性能。
gwern 提出了'守护天使'方案,主张训练一个模仿用户本人的 LLM 数字分身,以解决通用 AI 助手的委托-代理问题和安全风险,并给出了从对齐理论到技术实现的完整路线图。
本文提出了一种约束随机赌博机算法,用于在时变任务需求以及异构的准确性、延迟和成本配置下在线选择大型语言模型,并在遗憾和约束违反方面提供了理论保证。
本文提出了一种在线自适应的临床决策支持AI系统,该系统整合了治疗效果估计、数字孪生模拟和强化学习,以在安全、临床医生监督的方式下推荐治疗方案,并在合成模拟器和TCGA卵巢癌数据集上进行了验证。
本文将嵌入模型路由形式化为具有低秩专家的对抗性上下文线性赌博机,提出了Hypentropy策略梯度(HPG)算法,该算法实现了O~(s√(MT))的策略遗憾,避免了维度灾难。
本文介绍了作者的硕士论文,该论文利用Kolmogorov-Arnold网络(KAN)在FPGA上实现超快机器学习,通过自定义硬件架构实现亚微秒级推理和在线学习。文章引用了两篇已接收的论文:基于LUT评估的KANELÉ(FPGA 2026最佳论文奖)以及一种在FPGA上进行在线学习的方法(ICML 2026)。
本文介绍了一种面向自适应查询和选择LLM API的在线上下文Pandora's Box模型,提出了一种结合GMM估计与UCB风格置信区间的学习方法,并证明了维度相关的遗憾界。
CLaaS是一个系统,用于对部署中的LLM智能体进行持续学习,利用经验回放实现样本高效的在线适应。
本文提出了SGDR(State-Grounded Dynamic Retrieval,状态感知动态检索),一种面向Web智能体的在线技能学习方法,支持逐步、感知当前状态的技能复用,而非静态的任务级检索。在WebArena上的实验表明,SGDR结合GPT-4.1可达到37.5%的成功率,相较于强基线取得了约10.6%的相对提升。
本文介绍了重复策略遗憾(RP-Regret),一种用于自适应对手重复博弈中遗憾最小化的博弈论度量,并提出了三种算法来最小化它,表明这样做可以导致如猎鹿博弈中的合作均衡。
SHARP 提出了一种受生物学启发的框架,将记忆积累与模式识别分离,在离线睡眠阶段使用加速重放来学习流式环境中的长程非平稳时序模式。它在 text8 和 PG-19 上提升了上下文保持能力,同时保持了计算效率。
本文提出了一种在线、无分布假设的框架,用于在对抗性和非平稳环境中控制条件风险价值(CVaR),具有渐近保证,并在投资组合风险管理和大型语言模型(LLM)毒性缓解中具有应用。
提出UniScale,一种在线框架,通过上下文多臂老虎机优化统一模型路由和测试时扩展,以在LLM推理中实现更好的质量-成本权衡。
本文介绍了Level-Constrained-Littlestone-Littlestone (LCLL)树,以刻画通用直推式在线分类中的可学习性,其中标签空间可能无界,并证明了最优错误率要么有界,要么呈对数增长。
本文通过为私有随机决策理论在线学习提供最优间隔依赖遗憾算法,解决了COLT开放问题,达到了阶 (log K)/Δ_min + (log K)/ε 的下界。
本文证明,在海森兼容性条件下,在线梯度下降方法能够针对隐凸损失实现最优的√T遗憾值,解决了对抗性在线学习中的开放问题。同时,还将结果扩展至单点赌博机反馈,给出了T^{3/4}的期望遗憾界。
本文提出了一个数字治疗决策支持框架,将患者依从性建模为内生变量,并利用在线学习优化治疗建议,实现了次线性遗憾。
提出了一种用于移动众包中LLM微调的真实在线偏好聚合机制,解决了策略性工人误报问题,并实现了次线性遗憾。
本文提出MODIAD,一种面向多模态在线分布式工业异常检测的框架,通过多类智能调度问题和资源高效类级低秩自适应(REC-LoRA)策略解决资源约束问题。在MVTec 3D-AD和Eyecandies数据集上的实验展示了卓越的性能和效率。