SkillChain-Gym：面向中断下考虑再技能的生产库存控制基准测试

arXiv cs.AI 2026/06/17 04:00 论文

benchmark production-inventory reskilling workforce-planning operations-research disruptions

摘要

本文介绍了SkillChain-Gym，这是一个面向考虑再技能的生产库存控制的基准规范，它模拟了工人技能动态、培训行动和中断场景，以评估策略体制。

arXiv:2606.17266v1 公告类型：新摘要：生产规划日益需要将劳动力能力视为决策变量：当技能未得到维护时认证会失效，新产品需要当前劳动力不具备的技能，而再技能获取与生产所需的工作时间竞争。现有的运营基准测试通常将劳动力视为外生变量，而包含技能和学习的劳动力规划模型很少作为可复用的测试平台发布。我们引入了SkillChain-Gym，这是一个面向考虑再技能的生产库存控制的基准规范：一个单站点环境，具有风格化的工人技能状态动态、硬阈值认证、遗忘以及能力消耗型培训行动，这些行动受到与生产相同的每工人时间预算限制。该基准包括种子控制的中断场景、三种可行性模式（带有投影诊断）、确定性回放以及涵盖运营、韧性、能力增长和培训机会分布的指标。我们评估了仅生产策略、反应式自适应策略、注水自适应策略和静态保险策略，在60个班次的时间范围内结合预算变体，并进行了成对统计检验。结果是体制依赖的，而非排名。具备培训能力的策略优于仅生产基线，而在遗忘情况下即使没有中断，维护性培训也是必要的。在具备培训能力的策略类别中，当瓶颈在预测中可见时，自适应培训有帮助，而精益的静态交叉培训计划（一个特意设计的有利比较项，其结构编码了相关技能应急情况）在意外冲击和缺勤情况下充当强有力的保险。产能裕度和遗忘率决定了这些体制之间的边界。没有哪类策略在所有体制下占优，这激励了由预测驱动的控制器，用于决定何时购买技能保险以及何时做出反应。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:35

# SkillChain-Gym：一套用于中断情境下再技能化感知生产库存控制的基准测试
来源：https://arxiv.org/html/2606.17266
Carlos Eduardo Sanoja Quanta Labs, LLC 教授, FCEA, Universidad Monteávila Edificio Lomas del Sol, Calle Humboldt, Lomas del Sol, Caracas, Venezuela csanoja@somosquanta\.com (https://arxiv.org/html/2606.17266v1/mailto:[email protected]) ORCID: 0009\-0000\-0339\-7072 (https://orcid.org/0009-0000-0339-7072)

###### 摘要

生产规划越来越需要将劳动力能力视为一个决策变量：当技能不被维护时，认证会失效；新产品需要当前劳动力不掌握的技能；而再技能化与当下生产所需的工人时间相竞争。现有的运营基准测试将劳动力视为外生变量，而包含技能和学习的劳动力规划模型很少作为可重复使用的测试平台发布。我们引入了 SkillChain-Gym，一套用于再技能化感知生产库存控制的基准规范：一个带有程式化工人技能状态动态的单站点生产库存环境，其中连续技能水平、具有硬阈值的认证和遗忘是状态的一部分，而培训是一种消耗产能的动作，受限于与生产相同的每个工人时间预算。该规范包括种子控制的中断场景（需求激增、缺勤，以及需要罕见技能的宣布或意外新产品引入）、三种可行性模式（附带强制预测诊断）、确定性重放，以及涵盖运营、韧性、能力增长和培训机会分布的指标。我们评估了一个精确可行的基线分类——纯生产策略、反应式自适应策略、注水自适应策略和静态保险策略（带预算变体）——在60班次的时间范围内，采用配对统计检验。结果呈现的是状态依赖性而非单一排名：培训能力型策略在所有情况下都优于纯生产基线；在真实的遗忘条件下，即使没有中断，维护性培训也是强制性的；在培训能力型策略类别之间，当瓶颈在预测中可见时，自适应培训占优，而一个精益的静态交叉培训计划——一个故意有利的比较对象，其结构编码了相关的技能偶然性——在意外冲击和缺勤下起到强大的保险作用，产能松弛和遗忘率决定了这两种状态之间的边界。没有哪个策略类别能在所有状态下占优，这促使我们需要预测驱动的控制器，它能决定何时购买技能保险、何时做出反应。

## 1 引言

制造规划越来越需要将劳动力能力视为一个决策变量，而非固定资源。产品过渡引入了当前劳动力不掌握的技能；当技能不被维护时，认证会失效；缺勤会正好移除那些拥有稀缺资格的工人；而再技能化项目与当下生产所需的工人时间相竞争[33 (https://arxiv.org/html/2606.17266#bib.bib38)]。忽略这种耦合的规划系统可能直到某个技能瓶颈出现时才满足服务目标——而那时已没有可行的行动，因为认证无法瞬间获得。

两个研究社区分别研究了该问题的组成部分，但很大程度上是分离的。一方面，运营和供应链基准环境——OR-Gym、MABIM、SafeOR-Gym 及类似套件[15 (https://arxiv.org/html/2606.17266#bib.bib15),36 (https://arxiv.org/html/2606.17266#bib.bib35),26 (https://arxiv.org/html/2606.17266#bib.bib26),3 (https://arxiv.org/html/2606.17266#bib.bib3)]——提供了可重复使用、种子控制的库存和生产控制环境，包含标准化的基线，但它们将劳动力能力视为外生或不存在：没有技能状态、没有培训动作、没有遗忘。另一方面，劳动力规划和双资源调度研究早就建模了技能、交叉培训、学习和遗忘[6 (https://arxiv.org/html/2606.17266#bib.bib6),29 (https://arxiv.org/html/2606.17266#bib.bib29),13 (https://arxiv.org/html/2606.17266#bib.bib13),11 (https://arxiv.org/html/2606.17266#bib.bib11)]，但这些模型通常是定制化的优化研究，而非带有通用接口、基线和指标的可重复使用环境。因此，没有一个标准的测试平台可以比较那些*决定关于培训*的生产规划策略。

本文介绍了SkillChain-Gym，一套用于再技能化感知生产和库存控制的基准规范：一个带有程式化工人技能状态动态的单站点环境。每个工人对每种技能有一个连续的技能水平；认证是该水平的一个硬阈值；生产需要认证；技能若不维护则会衰退；而培训是一个显式动作，消耗与生产相同的工人时间（第3节 (https://arxiv.org/html/2606.17266#S3)）。最后一个属性——培训作为一个*消耗产能*的动作——是该基准的核心机制。当培训是免费或瞬时完成时，技能管理与运营解耦，简化为一个调度细节。当每个培训小时都是牺牲的一个生产小时时，策略面临真正的跨期权衡：现在消耗产能来满足需求，还是投资以保持将来满足需求的能力。中断场景（需求激增、缺勤，以及需要罕见技能的宣布或意外新产品引入）恰好考验这一权衡。

我们的实证贡献是绘制了一个*状态地图*，而非给出一个赢家。在九个 T=60 的场景实例、每个单元 20–50 个种子、以及配对统计检验中，我们发现培训能力型策略在所有情况下都优于纯生产基线——在真实的遗忘条件下，即使没有冲击，维护性培训也是强制性的——但培训能力型策略类别之间的比较受三个参数支配：瓶颈可见性、产能松弛和遗忘率。预测可见的瓶颈有利于自适应、反应式培训，它胜过了我们测试的所有过度供应的静态计划。意外冲击和缺勤则有利于精益的静态交叉培训计划，它起到保险作用，其成本是在冲击前被转移的劳动力；在接近需求-产能边界处，反应瞬态在结构上不可恢复，这种保险无论遗忘率如何都占优。我们特意将静态计划报告为*有利*的比较对象——其结构编码了哪些技能可能变得关键——并通过一种注水分配变体，分离出自适应策略的不足中有多少是分配的人工产物，而非策略类别的固有属性。

具体而言，我们的贡献是：

- •一套再技能化感知生产库存控制的基准规范：一个单站点、Gymnasium样式的环境，其中工人能力是状态的一部分，培训是动作空间的一部分，具有确定性种子重放和三种可行性模式附带强制预测诊断（第4节 (https://arxiv.org/html/2606.17266#S4)）。
- •一个锁定的程式化工人技能状态动态公式：连续技能水平、硬阈值认证、消耗产能的培训、遗忘，以及软生产率和边做边学被限制在标记的扩展中（第3节 (https://arxiv.org/html/2606.17266#S3)）。
- •中断场景和指标，涵盖运营、韧性（包括恢复率和未恢复情节计数）、能力增长，以及跨工人的培训机会分布（第4.4节 (https://arxiv.org/html/2606.17266#S4.SS4) 和 4.5节 (https://arxiv.org/html/2606.17266#S4.SS5)）。
- •一个基线分类，涵盖纯生产、反应式自适应、注水自适应和静态保险策略（带预算变体），所有策略都是精确可行的，且没有为获胜而调整（第5.2节 (https://arxiv.org/html/2606.17266#S5.SS2)）。
- •一个状态分析，显示没有哪个策略类别占优：当瓶颈可见或可预测时，自适应培训有帮助，而精益的静态交叉培训在意外冲击和缺勤下可起到强大的保险作用，产能松弛和遗忘率是支配参数（第6节 (https://arxiv.org/html/2606.17266#S6)）。

这些发现将基准定位为一个基础而非终点：状态结构——可见性、松弛、遗忘——正是那些重视未来技能能力的后退时域控制器应该能够结合两个策略类别优势的环境，我们在配套论文中对此进行研究。本文的其余部分回顾相关工作（第2节 (https://arxiv.org/html/2606.17266#S2)），形式化模型（第3节 (https://arxiv.org/html/2606.17266#S3)），描述基准设计（第4节 (https://arxiv.org/html/2606.17266#S4)），并展示实验设置、结果和讨论（第5–7节 (https://arxiv.org/html/2606.17266#S5)）。

## 2 相关工作

#### 运营和供应链强化学习基准。

最近的几个环境通过标准化的基准接口使运营研究问题对强化学习可访问。OR-Gym 引入了针对经典 OR 问题（包括多级供应链）的 Gym 风格环境，并将 RL 策略与优化和启发式基线进行比较[15 (https://arxiv.org/html/2606.17266#bib.bib15)]。MABIM 将这一方向扩展到用于库存管理研究的多代理、多级、多商品库存模拟器[36 (https://arxiv.org/html/2606.17266#bib.bib35)]。Alvo 等人认为库存网络是可靠策略优化的有前景场景，并发布了用于库存网络控制的基准环境[1 (https://arxiv.org/html/2606.17266#bib.bib1)]。SafeOR-Gym 进一步将实际 OR 环境适应到受约束的马尔可夫决策过程，用于安全强化学习[26 (https://arxiv.org/html/2606.17266#bib.bib26)]，而 RL4CO 为组合优化中的强化学习提供了一个广泛的基准框架[3 (https://arxiv.org/html/2606.17266#bib.bib3)]。这些基准确立了可重复使用环境、基线和标准化评估的价值，但它们普遍将劳动力能力视为外生或不存在，而非由培训决策塑造的动态能力。

#### 用于库存和供应链控制的强化学习。

供应链RL文献活跃且多样，如 Rolf 等人所总结[27 (https://arxiv.org/html/2606.17266#bib.bib27)]。先前工作研究了受约束连续动作 RL 用于库存管理[4 (https://arxiv.org/html/2606.17266#bib.bib4)]、深度 RL 用于多级库存系统[8 (https://arxiv.org/html/2606.17266#bib.bib8)]、风险敏感和分布性 RL 用于多级供应链[35 (https://arxiv.org/html/2606.17266#bib.bib34),34 (https://arxiv.org/html/2606.17266#bib.bib33)]、基于强盗的库存优化[25 (https://arxiv.org/html/2606.17266#bib.bib25)]，以及中断感知的多级库存策略[21 (https://arxiv.org/html/2606.17266#bib.bib21)]。这些工作建模了库存、补货、提前期、成本和中断，但它们没有将工人技能、学习、遗忘或再技能化动作作为环境状态和动作空间的一部分。

#### 劳动力规划、技能、培训和学习。

含有技能的劳动力规划是一个成熟的领域。De Bruecker 等人综述了技能感知劳动力规划的技术和管理方面，包括技能类别、替代、交叉培训和学习效应[6 (https://arxiv.org/html/2606.17266#bib.bib6)]。包含工人培训的生产规划也已被直接建模：Saidi-Mehrabad 等人提出了一个动态制造规划模型，包含工人分配、工人培训、机器时间、库存和积压成本[29 (https://arxiv.org/html/2606.17266#bib.bib29)]。Heuser 等人研究了在可变需求下、带有边做边学和遗忘的灵活且预算受限的培训[11 (https://arxiv.org/html/2606.17266#bib.bib11)]；Valeva 等人分析了需求不确定下工人在经验中学习时，劳动力灵活性与库存之间的权衡[30 (https://arxiv.org/html/2606.17266#bib.bib30)]；Cavagnini 等人则建模了劳动力生产规划中的不确定学习率[5 (https://arxiv.org/html/2606.17266#bib.bib5)]。Ruf 等人为层级技能、长期培训和随机辞职在劳动力能力规划中构建了一个 MDP[28 (https://arxiv.org/html/2606.17266#bib.bib28)]。这些研究表明，再技能化感知的生产规划作为一个优化主题并不新鲜。差距在于这些模型通常不作为包含通用 RL/控制基线和标准化能力及培训机会指标的可重复使用基准环境发布。

#### 双资源调度。

双资源约束车间调度文献表明，交叉培训和工人灵活性可以显著影响车间绩效。早期的仿真和分析研究考察了车间中的交叉培训[24 (https://arxiv.org/html/2606.17266#bib.bib24)]、串联生产线中的技能链[13 (https://arxiv.org/html/2606.17266#bib.bib13)]、工人转移延迟和学习损失[19 (https://arxiv.org/html/2606.17266#bib.bib19)]，以及带学习和遗忘的异质灵活性[38 (https://arxiv.org/html/2606.17266#bib.bib37),7 (https://arxiv.org/html/2606.17266#bib.bib7)]。最近的工作将学习和遗忘整合到工人分配和生产规划中[20 (https://arxiv.org/html/2606.17266#bib.bib20)]、技能和动机变化下的工作轮换[2 (https://arxiv.org/html/2606.17266#bib.bib2)]、产品类别学习和遗忘[12 (https://arxiv.org/html/2606.17266#bib.bib12)]、能力感知的混合装配线调度[23 (https://arxiv.org/html/2606.17266#bib.bib22),22 (https://arxiv.org/html/2606.17266#bib.bib23)]，以及针对产品演变的鲁棒技术员培训/资源规划[18 (https://arxiv.org/html/2606.17266#bib.bib18)]。最近的社会技术调度和以人为本的生产规划系统也包括工人能力、偏好或疲劳[10 (https://arxiv.org/html/2606.17266#bib.bib10),9 (https://arxiv.org/html/2606.17266#bib.bib9),14 (https://arxiv.org/html/2606.17266#bib.bib14)]。因此，SkillChain-Gym 并非声称将工人技能引入生产调度；相反，它针对生产库存控制、显式再技能化动作、中断场景和人类能力指标交叉处的基准空白。

#### 可靠性和培训机会指标。

工业强化学习系统不仅仅需要高平均奖励。Waubert de Puiseau 等人调查了基于 RL 的生产调度的可靠性概念，强调鲁棒性、稳定性和风险感知评估[31 (https://arxiv.org/html/2606.17266#bib.bib31)]。一旦培训机会通过算法分配，它们在工人中的分布也变得重要。关于公平强化学习的正式工作研究了顺序设置中动作影响未来状态和奖励的情况[16 (https://arxiv.org/html/2606.17266#bib.bib16)]，而 Weng 通过 RL 中的社会福利函数来框架化公平性[32 (https://arxiv.org/html/2606.17266#bib.bib32)]。对于资源分配，Jain 的指

SkillChain-Gym：面向中断下考虑再技能的生产库存控制基准测试

相似文章

针对韧性制造业供应链的技能约束模型预测控制

SkillGen：经过验证的推理时代理技能合成

智能体强化学习中的动态技能生命周期管理

SkillGraph：通过动态演进的技能图增强智能体的强化学习

SkillChain：闭环实现基于图像的电商AI助手的技能演化

提交意见反馈