贝叶斯上下文赌博机在实时仓库分拣优化中的比较研究
摘要
本文对贝叶斯上下文赌博机(BCB)、XGBoost和线性回归在电商仓库实时分拣转向优化中进行了比较研究,结果显示BCB实现了2.03%的奖励提升,并具有优越的在线学习和推理延迟性能。
arXiv:2606.23977v1 公告类型:新
摘要:高效的分拣转向控制对于自动化物料处理系统(MHS)在大规模仓库环境中优化运营效率至关重要。在本研究中,我们以高流量电商仓库的进货接收分拣机为主要用例,该分拣机的转向系统依赖于具有静态权重配置的成本函数,无法适应高度动态的系统上下文,例如吞吐量模式、拥堵程度、设备物理状态以及上下游依赖关系。为解决这一实时分拣转向优化挑战,我们对三种候选混合机器学习框架进行了比较研究:线性回归与梯度下降优化(LR+GDO)、XGBoost与贝叶斯优化(XGB+BO)以及贝叶斯上下文赌博机(BCB)。通过利用高保真度物理感知仿真器进行模型训练和评估,克服了冷启动问题,并实现了从离线学习到在线学习的平滑过渡。我们进行了全面评估,包括奖励模型预测准确性、上下文敏感性、动作分布以及预期奖励提升。结果表明,虽然基于树的奖励模型具有略高的预测能力,但BCB框架整体表现更优,相比启发式基线实现了2.03%的奖励提升。此外,BCB展现出几个优越特性,例如基于Bang-Bang控制理论的果断时间最优策略、持续在线学习能力、探索与利用的战略平衡以及显著更短的推理延迟。这些结果证明了BCB框架在大规模仓库环境中用于实时控制优化的潜力,为后续操作部署的进一步研究提供了动力。
查看缓存全文
缓存时间: 2026/06/24 07:49
# 贝叶斯上下文老虎机在仓库实时分拣优化中的比较研究 来源:https://arxiv.org/html/2606.23977 ###### 摘要 自动化物料处理系统(MHS)的高效分拣分流控制对于优化大规模仓库环境中的运营效率至关重要。在本研究中,我们以一个高流量电商仓库的入库接收分拣机为主要用例。该分拣机分流系统依赖具有静态权重配置的成本函数,无法适应高度动态的系统上下文,例如流量模式、拥堵程度、设备物理状态以及上下游依赖关系。为了解决这一实时分拣分流优化挑战,我们对三种候选混合机器学习框架进行了比较研究:线性回归与梯度下降优化(LR+GDO)、XGBoost与贝叶斯优化(XGB+BO)以及贝叶斯上下文老虎机(BCB)。通过利用高保真物理感知仿真器,模型训练和评估得以实现,克服了冷启动问题,并允许从离线到在线学习的安全过渡。我们进行了全面的评估,包括奖励模型预测准确性、上下文敏感性、动作分布以及预期奖励提升。我们的结果表明,尽管基于树的奖励模型具有稍强的预测能力,但BCB框架实现了整体更高的性能,相比启发式基线有2.03%的奖励提升。此外,BCB展现了几项优越特性,例如基于Bang-Bang控制理论的决定性时间最优策略、持续的在线学习能力、探索与利用的战略性平衡,以及显著更短的推理延迟。这些结果证明了BCB框架在大规模仓库环境中实现实时控制优化的潜力,推动其向实际部署的进一步研究。 索引术语——贝叶斯上下文老虎机,仓库自动化,实时优化,在线学习,成本函数调优。 ## I. 引言 在电商仓库环境中,部署了各种分拣机来管理传入物品向其各自目的地的分流。每个分拣机利用自定义的成本函数来决定传入物品的分流方向。成本函数通过实时计算若干成本因素的加权和,为每个可能的分流方向计算一个复合成本得分。对于每个传入物品,分拣机评估所有可能分流方向的成本得分,并选择得分最低的方向。该成本函数针对每个站点每台分拣机的具体特性进行定制,考虑因素包括分拣机类型、站点物理布局、分流选项数量、可用传感器和系统指标。尽管每个成本函数的具体组成部分可能不同,但其通用形式可表示为: 复合成本得分 = ∑ᵢ₌₁ⁿ wᵢ · cost_factorᵢ (1) 其中 cost_factorᵢ 表示第 i 个成本因素的值,wᵢ 表示分配给该成本因素的权重,n 表示成本因素的总数。成本因素是反映关键系统性能维度的运营指标。几个例子包括目的地区域满度、吞吐量、分流连续性和分配偏好等。 仓库是一个高度复杂的系统,包含随时间演变的相互关联的上下游流程,要求分拣机分流系统能够自适应并做出最优的分流决策。然而,目前的限制在于成本函数中的权重配置一直是静态的。固定的配置可能导致次优的分流决策,从而造成高回流率、拥堵和运营效率降低。为了解决这个问题,我们提出了一种混合机器学习框架,该框架根据系统上下文自动推荐最优权重。该框架包含离线模型初始化和在线持续学习两个阶段。 开发此类框架的一个关键挑战是冷启动问题。历史运营数据缺乏成本权重值的变化,不足以训练一个鲁棒的优化模型。为了缓解这一问题,我们利用高保真物理感知仿真器。通过在仿真器中程序化地给成本权重分配随机值并记录相应的系统结果,我们制备了模拟数据集,这些数据集捕捉了系统动态(上下文)、成本权重(动作)与结果性能指标(奖励)之间复杂的隐藏关系。 在本文中,我们对三种候选算法架构进行了比较研究,用于分拣机优化解决方案: - • 线性回归 + 梯度下降优化(LR+GDO) - • XGBoost + 贝叶斯优化(XGB+BO) - • 贝叶斯上下文老虎机(BCB) 以一个高流量履行环境中的入库接收分拣机为主要用例,我们通过运行仿真器收集了5000个训练样本。在离线初始化阶段,我们基于这些样本训练一个奖励模型,以学习系统状态、控制动作和结果运营成果之间的关系。然后,我们通过为留出的系统状态生成动作,并使用学得的奖励模型作为代理来估计相应的奖励,同时与同一数据集中记录的启发式基线进行比较,从而离线评估训练好的策略。基于离线预测准确性、仿真结果、模型复杂性、持续在线学习的潜力以及实时推理延迟,对三个候选模型进行比较。最终结果表明,贝叶斯上下文老虎机(BCB)为各种分拣机使用场景提供了性能和在线学习能力之间最稳健的平衡。 ## II. 相关工作 许多关于仓库分拣机优化问题的现有研究采用传统的运筹学(OR)方法。这些工作应用启发式算法做出确定性分配或调度决策,并常利用混合整数线性规划(MILP)基于已知参数最小化行程时间或最大化吞吐量[13 (https://arxiv.org/html/2606.23977#bib.bib2),3 (https://arxiv.org/html/2606.23977#bib.bib3),1 (https://arxiv.org/html/2606.23977#bib.bib4),2 (https://arxiv.org/html/2606.23977#bib.bib5)]。然而,在高度动态的仓库分拣环境中,简单的启发式规则随着系统自身演化而变得越来越随机,很少能长期保持有效。更重要的是,作为高度上下文相关且相互关联的系统的一部分,最优的分拣机配置依赖于高维的系统上下文输入,这使得传统OR模型面临“维度灾难”和高推理延迟的问题,无法满足实时分流的要求。 其他一些研究采用数据驱动策略,通过训练监督学习(SL)模型来预测未来流量、拥堵或设备故障,然后结合基于规则或OR模型(如线性规划)进行推荐[12 (https://arxiv.org/html/2606.23977#bib.bib6)]。尽管这些模型在预测某些参数作为求解器输入方面可能具有高精度,但它们通常作为开环系统实现,缺乏实时自适应反馈回路。我们提出的解决方案建立在闭环架构上,其中优化和学习紧密集成。 上下文老虎机已成功应用于许多不同领域,包括教育[5 (https://arxiv.org/html/2606.23977#bib.bib11)]、健康[7 (https://arxiv.org/html/2606.23977#bib.bib8),11 (https://arxiv.org/html/2606.23977#bib.bib10)]、旅游[8 (https://arxiv.org/html/2606.23977#bib.bib7)]以及数字营销,如广告投放和新闻推荐[6 (https://arxiv.org/html/2606.23977#bib.bib9)]。在工业环境中,贝叶斯上下文老虎机(BCB)作为一种样本高效的单步老虎机模型正在兴起,它通过汤普森采样提供透明的不确定性量化机制,相比被称为“黑箱”的多步深度强化学习(已知数据需求量大且需要数十万样本进行训练[4 (https://arxiv.org/html/2606.23977#bib.bib12)])具有优势。 虽然现有研究探索了将上下文老虎机用于仓库优化,但它们主要集中在宏观物流和静态离散动作规划问题,如订单合并、拣选优化和存储分配[9 (https://arxiv.org/html/2606.23977#bib.bib13)]。相比之下,我们的研究超越了简单的离散分配,利用贝叶斯上下文老虎机框架来解决高频率仓库分拣控制这一关键但未被充分探索的领域中的连续成本权重优化问题。 ## III. 系统建模:上下文空间、决策变量和目标函数 在介绍算法设计之前,我们首先对要解决的优化问题进行数学化公式化。在本节中,我们以入库接收分拣机为例,定义系统上下文向量、决策变量和奖励函数。 ### III-A 系统上下文表示 系统上下文可以表示为一个数值向量,包括系统吞吐量、上游扫描计数、目的地区域满度、回流率、控制超控率等特征。某些特征以过去 ΔT 滚动窗口的聚合总和或平均值形式包含,而其他特征则以时间序列形式包含,提供时间信息以增强模型的预测能力。 - • 聚合特征包括:吞吐量、回流率、控制超控率、路由违规率、目的地满度。这些特征捕捉分拣机周围系统动态,并在过去 ΔT 时间窗口内进行聚合。滚动窗口聚合可滤除瞬时噪声,并提供真实底层系统状态的稳定表示。 - • 时间序列特征包括:按输入类别划分的上游扫描量。这些特征提供上游系统吞吐量的见解,有助于预测未来分拣机到达量。将预测的未来到达量包含在上下文向量中有助于动作推荐。我们不是构建单独的流量预测模型,而是直接在上下文向量中包含原始上游吞吐量信号,使模型能够内化上游流量与未来奖励之间的时间关系。 ### III-B 决策变量 决策变量是分配给成本函数中各成本因素的权重,用于做出实时分拣机分流决策。为了能够正确地将结果奖励归因于相应的成本权重,成本权重应在合理长的持续时间(例如几分钟)内保持特定值,以便系统对其做出反应并对系统指标产生一些可靠影响。因此,在仿真阶段,我们选择在每个 Δ 时间窗口扰动成本权重值;在在线学习阶段,我们也让模型在每个 Δ 时间窗口生成新的权重推荐。 ### III-C 奖励设计 我们希望通过此优化解决方案改进并平衡多个系统性能指标。因此,我们使用一个复合奖励得分,定义为几个运营关键绩效指标(KPI)的加权和: r = ∑ᵢ₌₁ⁿ wᵢ · kᵢ,约束为 wᵢ ≥ 0,∑ᵢ₌₁ⁿ wᵢ = 1 (2) 其中 kᵢ 表示第 i 个 KPI,wᵢ 是其对应的权重。奖励得分应作为 Δ 时间窗口内的聚合值计算,而不是某个时间戳的点值,以便反映系统的真实运营效率水平并滤除噪声。我们分析了复合得分中包含的每个奖励指标的定义和业务逻辑,其大部分影响应来自同一时间窗口内实施的即时成本权重。因此,奖励观测时间窗口应与其对应成本权重的时间窗口对齐。因此,该模型将专注于优化即时奖励,而非延迟的长期奖励。 ## IV. 算法设计:候选优化框架及公式 本节讨论用于分拣机分流优化问题的三种候选优化框架的算法架构和设计细节。 ### IV-A 线性回归 + 梯度下降优化(LR+GDO) LR+GDO 架构首先训练一个奖励模型,该模型捕捉系统上下文 C、成本权重 W 与奖励结果 R 之间的复杂关系。奖励模型使用带有 Lasso 正则化的线性回归进行训练,以减少特征维度并使其成为样本高效的基线。我们在回归模型中包含了所有上下文变量与权重变量之间的交互项 Cᵢ * Wⱼ,以使其能够捕捉不同系统上下文下成本权重如何影响奖励的差异。 φ(C, W) = [1, C₁, ..., C_dc, W₁, ..., W_dw, C₁W₁, ..., C_dc W_dw]^⊤ (3) 其中 d_φ = 1 + d_c + d_w + d_c · d_w。然后奖励模型公式化为: R̂(C, W) = β^⊤ φ(C, W) (4) 模型参数 β 通过最小化 Lasso 正则化目标函数学习得到: min_β ∑ᵢ₌₁ⁿ (Rᵢ − β^⊤ φ(Cᵢ, Wᵢ))² + α ‖β‖₁ (5) 其中 n 是训练样本数,α 是正则化参数。 一旦奖励模型训练完成,它就被用于指导动作推荐的优化搜索。我们利用 PyTorch 框架进行高效的梯度下降优化。我们从回归模型中提取学得的系数,并将其移植到一个可微的 PyTorch 封装器中,该封装器在其计算图中重建奖励模型,以便使用此奖励模型作为目标函数来搜索全局最优解。最优解需要满足单纯形约束: max_W R̂(C, W) 约束为 ∑ᵢ₌₁^dw wᵢ = 1, wᵢ ≥ 0 ∀i (6) 鉴于默认的 PyTorch 优化搜索在无约束的潜在空间 Z ∈ ℝ^dw 中进行,我们添加一个 Softmax 层将其映射到有效权重 W,然后使用 Adam 优化器通过反向传播预测奖励计算的梯度来迭代更新 Z。 ### IV-B XGBoost + 贝叶斯优化(XGB+BO) XGB+BO 框架由两个关键组件组成:一个基于树的奖励模型和一个贝叶斯优化求解器。XGBoost 奖励模型,
相似文章
用于最大化激励口碑回报的上下文多臂赌博机
本文提出了一种上下文多臂赌博机框架,该框架学习社交网络中的个体溢出概率,以优化激励式口碑营销,通过定向关联用户实现更高的回报。
捕捉移动子空间:超越平稳性的低秩老虎机
本文研究了分段平稳的低秩线性上下文老虎机,提出了SPSC算法,该算法实现了与内在秩(而非环境维度)成比例的动态遗憾,并刻画了在标量反馈下子空间恢复的辨识边界。
多目标多智能体赌博机:从学习效率到公平性优化
本文针对多目标多智能体多臂赌博机问题,介绍了 Pareto UCB1 Gossip 和模拟 NSW UCB Gossip 算法,旨在解决随机环境下的学习效率与公平性问题。
基于时变需求的约束赌博机在线LLM选择
本文提出了一种约束随机赌博机算法,用于在时变任务需求以及异构的准确性、延迟和成本配置下在线选择大型语言模型,并在遗憾和约束违反方面提供了理论保证。
人类参与循环的上下文老虎机用于短期租赁动态定价:历史预热与审批门控在线学习的结构等价性
本文介绍了用于短期租赁动态定价的人类参与循环门控老虎机(HITL-GB),表明先前策略下的历史定价数据在结构上等同于在线策略预热数据,将冷启动从约150轮减少到约30轮。