针对韧性制造业供应链的技能约束模型预测控制

arXiv cs.AI 论文

摘要

本文提出了一种针对韧性制造业供应链的技能约束模型预测控制方法,其中培训决策影响未来的认证产能。该控制器求解有限时域混合整数规划,并在合成场景上进行评估,结果表明当瓶颈可预测时预测控制有效,但并非普遍优越。

arXiv:2606.17269v1 Announce Type: new 摘要:在技能约束的生产-库存系统中,明天的合格人力容量取决于今天的培训决策:生产需要认证工人,证书若不维护则失效,而培训消耗了生产当前所需的同样稀缺的工人工时。我们研究了一种闭环技能约束模型预测控制器,该控制器在每个班次求解一个有限时域混合整数规划,涵盖生产、库存、积压和培训,具有二元预测认证、硬生产资格以及一个可解释的终端价值,该价值在时域边界对认证产能缺口进行定价;在重新规划前仅应用第一个周期的动作。在合成、种子控制的SkillChain-Gym场景中——包括公告和新技能冲击、需求冲击、缺勤、预测与可用性质量模式、产能边界与培训率扫描以及负控制——我们在事前锁定配置和配对统计下,将控制器与仅生产和仅维护的消融实验、静态交叉培训保险计划以及一个强反应式启发式方法进行评估。结果是依赖机制,而非优越性:没有任何策略类别占主导地位。当技能或劳动力瓶颈可提前预测以便培训完成时,预测控制有所帮助;在突发冲击下、需求-产能边界附近以及冲击前松弛使保险成本低廉之处,精益静态保险仍然难以被击败。归因消融实验将认证维护、失效认证的重新获取以及全新技能获取分开。可预测性,而非适应性本身,决定了预测控制何时值得。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:35

# 技能受限的制造业供应链韧性模型预测控制
来源:https://arxiv.org/html/2606.17269
Carlos Eduardo Sanoja Quanta Labs, LLC 教授,FCEA,蒙特阿维拉大学 Edificio Lomas del Sol,Calle Humboldt,Lomas del Sol,卡拉卡斯,委内瑞拉 csanoja@somosquanta\.com ORCID:0009\-0000\-0339\-7072 (https://orcid.org/0009-0000-0339-7072)

###### 摘要

在技能受限的生产-库存系统中,明天可用的合格人力取决于今天的培训决策:生产需要持证工人,认证除非得到维持否则会失效,而培训消耗了生产当下所需的同样稀缺的工时。我们研究一种闭环技能受限模型预测控制器,它在每个班次求解一个有限时域混合整数规划,涉及生产、库存、积压和培训,具有二元预测认证、严格的生产资格条件以及一个可解释的终端价值,该价值在时域边界上对认证能力缺口进行定价;在重新规划前仅实施第一期动作。在合成、种子控制的 SkillChain-Gym 场景(包括已宣布和新技能冲击、需求冲击、缺勤、预测与可用性质量模式、能力边界与培训率扫描以及负控制)上,我们评估该控制器与仅生产和仅维护的消融版本、静态交叉培训保险计划以及一个强反应式启发式算法的对比,采用事前锁定的配置和配对统计。结果呈现的是机制依赖性,而非优越性:没有哪种策略类别占主导地位。当技能或劳动力瓶颈可被预测且提前足够时间以完成培训时,预测控制有所帮助;而在意外冲击、接近需求-能力边界以及冲击前松弛使得保险廉价的情况下,精益静态保险仍难以被击败。归因消融将认证维持、失效认证的重新获取和全新技能获取区分开来。可预测性(而非适应性本身)决定了预测控制何时能够带来收益。

## 1 引言

生产和服务系统通常被规划为仿佛劳动力能力是外生的:工人作为一种固定资源出现,规划问题是如何围绕他们分配材料、机器和库存。在技能受限的运营中,这种抽象以一种特定方式失效——未来可用的合格能力取决于今天做出的培训和认证决策。劳动力规划研究早已将技能、交叉培训和学习视为一类建模对象[12 (https://arxiv.org/html/2606.17269#bib.bib11),42 (https://arxiv.org/html/2606.17269#bib.bib42)],而劳动力重新配置在制造业中日益被视为一种韧性杠杆[18 (https://arxiv.org/html/2606.17269#bib.bib18),32 (https://arxiv.org/html/2606.17269#bib.bib34)]。当生产需要持证工人且认证是动态的时,合格的人力能力(而非机器或材料)可能成为约束性的运营资源。此时,技能重塑不再是一个背景性的人力资源决策,而是成为一种控制动作。

使由此产生的控制问题变得困难的是紧密的跨期耦合。培训消耗了生产当下所需的同样稀缺的工时,因此建立未来能力总是以牺牲当前产出为代价[21 (https://arxiv.org/html/2606.17269#bib.bib21),26 (https://arxiv.org/html/2606.17269#bib.bib26)]。技能在未使用时衰减,因此认证是一种需要维护的资产,而非一次性购买[27 (https://arxiv.org/html/2606.17269#bib.bib28),5 (https://arxiv.org/html/2606.17269#bib.bib5),29 (https://arxiv.org/html/2606.17269#bib.bib30)]。中断与这两种机制相互作用:需求激增和缺勤给现有的认证能力带来压力,而新产品引入可能需要当前没有工人掌握的技能。这些冲击是已知的、晚宣布的还是直到爆发才被隐藏,从根本上改变了问题,因为培训存在滞后——在冲击后做出反应在结构上可能为时已晚,因为冲击后的需求没有留下任何松弛来将工时转移到培训上。

这个问题的每个要素在孤立状态下都已得到充分研究。库存、生产和供应链的模型预测控制和滚动时域控制是一个成熟的领域[6 (https://arxiv.org/html/2606.17269#bib.bib6),31 (https://arxiv.org/html/2606.17269#bib.bib32),13 (https://arxiv.org/html/2606.17269#bib.bib13),28 (https://arxiv.org/html/2606.17269#bib.bib29),37 (https://arxiv.org/html/2606.17269#bib.bib38)],但它将劳动力视为外生的或不存在。具备技能、培训、学习和遗忘的劳动力规划同样成熟[12 (https://arxiv.org/html/2606.17269#bib.bib11),34 (https://arxiv.org/html/2606.17269#bib.bib35),40 (https://arxiv.org/html/2606.17269#bib.bib40)],但这些模型主要是开环规划公式,而非闭环控制器。最接近的控制侧工作将人类活动时间不确定性或机器能力“技能”建模在MPC内部[35 (https://arxiv.org/html/2606.17269#bib.bib36),44 (https://arxiv.org/html/2606.17269#bib.bib44)],但缺少工人技能演化或培训动作。因此,我们并不声称供应链MPC或劳动力培训模型具有新颖性;贡献在于它们的闭环组合:一个滚动时域控制器,其中工人技能水平是观测到的动态状态,培训是一种在线、消耗能力的控制动作,与库存和积压动态相结合。

具体而言,我们在同行论文的SkillChain-Gym基准(第3节 (https://arxiv.org/html/2606.17269#S3))上公式化了技能受限的生产-库存控制:连续技能水平带有硬阈值认证、需要认证的生产资格、几何遗忘以及共享每位工人用于生产和培训的时间预算。该控制器(第4节 (https://arxiv.org/html/2606.17269#S4))在每个班次求解一个有限时域混合整数规划,具有二元预测认证和可解释的终端技能瓶颈价值(该价值对时域边界上留下的认证能力缺口进行定价),仅应用第一期动作,然后重新规划。归因消融隔离了技能机制的价值:仅生产控制器、仅维护(可维持但无法获取认证)控制器、以及带有和不带终端价值的完整控制器,与精心设计的有利静态交叉培训计划和强反应式启发式算法进行对比,采用事前锁定的主配置和配对统计(第5节 (https://arxiv.org/html/2606.17269#S5))。

实证图景(第6节 (https://arxiv.org/html/2606.17269#S6))是一张机制地图,而非排名。没有哪种策略类别占主导地位。预测控制有助于解决可预测且提前足够时间以完成培训的技能或劳动力瓶颈:预测可见的新技能瓶颈、已宣布的需求冲击(其中库存预期与认证维护相结合)、已宣布的缺勤窗口以及慢培训制度(其中终端价值防止短时域控制器忽略可见的未来缺口)。当冲击被隐藏、当反应瞬态在需求-能力边界附近结构上不可恢复、以及当冲击前松弛使保险变得廉价时,精益静态保险仍然难以被击败。退化预测质量会以可解释的顺序退化控制器,明确表明其优势在于预测杠杆而非通用适应性。

我们的贡献是:

1. 1. 一种适用于单场地生产-库存系统的闭环技能受限MPC公式,包含动态工人技能状态、硬认证、遗忘和消耗能力的培训;
2. 2. 一种混合整数实现,具有可解释的终端技能瓶颈价值,以及一条变体/消融链,将仅生产控制、认证维护、无终端MPC和完全技能感知MPC分开;
3. 3. 一套在SkillChain-Gym模拟器上可重现、确定性的实验套件,涵盖已宣布和意外的新技能冲击、需求冲击、缺勤、预测与可用性预测质量、能力边界扫描、培训率敏感性以及负控制;以及
4. 4. 一种机制层面的制度分析,通过回合内认证事件计数器将认证维护、失效认证的重新获取和全新技能获取分开,并表明可预测性——需求、新技能要求和劳动力可用性的可预测性——决定了预测控制何时优于静态保险。

## 2 相关工作

### 2.1 生产-库存与供应链系统的模型预测控制

模型预测控制(MPC)在生产-库存与供应链规划领域有着悠久历史。早期工作展示了滚动时域优化如何在容量、存储、生产和运输约束下管理多产品、多梯队需求网络和供应链利润目标[6 (https://arxiv.org/html/2606.17269#bib.bib6),7 (https://arxiv.org/html/2606.17269#bib.bib7),31 (https://arxiv.org/html/2606.17269#bib.bib32)]。控制理论化的生产-库存与供应链模型综述进一步表明,库存、积压、需求放大、订货和物料流动态已通过控制方法得到广泛研究[30 (https://arxiv.org/html/2606.17269#bib.bib31),36 (https://arxiv.org/html/2606.17269#bib.bib37)]。后续工作开发了集中式、鲁棒、基于场景和增强预测的供应链与库存系统预测控制器[28 (https://arxiv.org/html/2606.17269#bib.bib29),14 (https://arxiv.org/html/2606.17269#bib.bib14),15 (https://arxiv.org/html/2606.17269#bib.bib15),37 (https://arxiv.org/html/2606.17269#bib.bib38),13 (https://arxiv.org/html/2606.17269#bib.bib13),2 (https://arxiv.org/html/2606.17269#bib.bib2),23 (https://arxiv.org/html/2606.17269#bib.bib23)]。最近的滚动时域博弈公式也对需求激增和供应冲击下的竞争性供应链进行了建模[17 (https://arxiv.org/html/2606.17269#bib.bib17)]。这些论文激励了我们的控制公式,但通常将生产能力视为外生的或受机器/工艺约束,而非劳动力技能发展的动态函数。

MPC 也已直接应用于制造调度和车间控制。例子包括半导体生产线的多层 MPC、全厂调度、多产品作业车间控制以及柔性作业车间调度[43 (https://arxiv.org/html/2606.17269#bib.bib43),24 (https://arxiv.org/html/2606.17269#bib.bib24),38 (https://arxiv.org/html/2606.17269#bib.bib39),44 (https://arxiv.org/html/2606.17269#bib.bib44)]。Wenzelburger 和 Allgower 的柔性作业车间工作在术语上尤为接近,因为它在 MPC 调度框架内建模了任务和制造单元的“技能”[44 (https://arxiv.org/html/2606.17269#bib.bib44)];然而,这些技能描述的是机器或制造单元的能力,而非通过培训演化的工人能力。Ruppert 等人将不确定的操作员活动时间纳入手动装配线的 MPC 控制器中[35 (https://arxiv.org/html/2606.17269#bib.bib36)],但未将工人技能获取或培训建模为控制动作。

### 2.2 具备技能、学习和培训的劳动力规划

运营研究领域的劳动力规划文献已包含大量关于技能、技能水平、多技能、学习、遗忘、交叉培训和人因的模型。广泛综述涵盖了人员调度、带技能的劳动力规划、制造中的劳动力重新配置、调度中的多技能以及人因感知的物流/制造优化[42 (https://arxiv.org/html/2606.17269#bib.bib42),12 (https://arxiv.org/html/2606.17269#bib.bib11),18 (https://arxiv.org/html/2606.17269#bib.bib18),1 (https://arxiv.org/html/2606.17269#bib.bib1),32 (https://arxiv.org/html/2606.17269#bib.bib34),33 (https://arxiv.org/html/2606.17269#bib.bib33),8 (https://arxiv.org/html/2606.17269#bib.bib8)]。工人分配和调度中的学习与遗忘也已在双资源系统、并行系统、单元制造、岗位轮换和劳动力分配中得到建模[27 (https://arxiv.org/html/2606.17269#bib.bib28),45 (https://arxiv.org/html/2606.17269#bib.bib45),5 (https://arxiv.org/html/2606.17269#bib.bib5),29 (https://arxiv.org/html/2606.17269#bib.bib30),4 (https://arxiv.org/html/2606.17269#bib.bib3),10 (https://arxiv.org/html/2606.17269#bib.bib10)]。整数规划重构使得非线性工人学习曲线在分配和规划模型中变得易于处理[22 (https://arxiv.org/html/2606.17269#bib.bib22),25 (https://arxiv.org/html/2606.17269#bib.bib25)],而学习曲线选择已在生产经济学中得到实证研究[16 (https://arxiv.org/html/2606.17269#bib.bib16)]。

有几篇论文对我们的新颖性声明构成了特别重要的约束。Azizi 和 Liang 联合优化了制造中的工人分配、灵活性获取、任务轮换和培训计划[3 (https://arxiv.org/html/2606.17269#bib.bib4)]。Valeva 等人研究了带有学习、随机需求和库存作为灵活性缓冲的劳动力规划[40 (https://arxiv.org/html/2606.17269#bib.bib40),41 (https://arxiv.org/html/2606.17269#bib.bib41)]。Cavagnini 等人通过建模不确定的学习和遗忘率以及分配、交叉培训和实践决策扩展了这一方向[9 (https://arxiv.org/html/2606.17269#bib.bib9)]。Heuser 等人明确研究了具有灵活或有预算限制的培训、波动需求、干中学和遗忘的生产劳动力规划,其中培训消耗了本可用于生产的能力[21 (https://arxiv.org/html/2606.17269#bib.bib21)]。Ruf 等人将分层技能、长期培训和随机辞职公式化为一个多阶段劳动力能力规划问题,并使用近似动态规划[34 (https://arxiv.org/html/2606.17269#bib.bib35)]。Henao 等人对多技能人员分配在带有学习-遗忘动态和 k 链策略[19 (https://arxiv.org/html/2606.17269#bib.bib19)]下进行了建模,并提供了相关的不确定多技能人员需求基准数据[20 (https://arxiv.org/html/2606.17269#bib.bib20)]。

### 2.3 运营与培训的集成

运营与培训的集成规划并非新鲜事物。De Bruecker 等人使用三阶段混合整数方法优化飞机维护技能组合和培训计划,其中培训影响劳动力可用性[11 (https://arxiv.org/html/2606.17269#bib.bib12)]。Kafiabad 等人将采购、生产、库存和在职培训集成到维护物流网络中[26 (https://arxiv.org/html/2606.17269#bib.bib26)],随后在需求不确定性下研究了维护中心的劳动力培训和运营规划[39 (https://arxiv.org/html/2606.17269#bib.bib27)]。这些是与当前主题最接近的前期工作,因为它们已经连接了运营、库存相关决策、持证操作员和培训。然而,它们的重点是通过确定性或随机数学规划进行战术维护规划,而非基于观测到的库存、积压、可用性和工人技能状态的闭环 MPC。

### 2.4 本文定位

因此,本文的贡献不在于在供应链 MPC 中使用技能状态或劳动力培训建模的新颖性,而在于它们的闭环组合

相似文章

SkillFlow:流程驱动的递归技能演化用于智能体编排

arXiv cs.AI

SkillFlow 提出了一种基于流程驱动的递归技能演化框架,用于基于大语言模型的智能体编排,采用 Tempered Trajectory Balance 来防止策略崩溃并提供透明的信用分配。在 14 个数据集上的实验表明,在问答、数学、代码和决策制定任务中,该框架显著优于基线方法。

预测汽车行业的绿色技能需求:来自在线招聘广告的证据

arXiv cs.LG

本文提出了一种端到端的流水线,用于识别和预测墨西哥汽车行业在线招聘广告中的绿色技能需求。通过对15种时间序列预测模型进行基准测试,研究发现以Transformer为基础的模型(如FEDformer和Informer)表现最佳,并引入了一个二维框架,根据增长动态对技能进行分类。

供应链管理中自主AI代理的可靠性与有效性

arXiv cs.AI

本文利用MIT啤酒游戏研究了多级供应链中的自主生成式AI代理,识别了四个推理时杠杆因素,并引入了代理牛鞭效应的概念。研究表明推理模型可以超越人类表现,并提出了基于GRPO的后训练以提高可靠性。

智能体强化学习中的动态技能生命周期管理

Hugging Face Daily Papers

本文介绍了 SLIM 框架,该框架通过在智能体强化学习中将主动技能集与策略学习联合更新,优化动态技能生命周期。实验表明,SLIM 通过高效的技能保留与扩展提升了任务性能,优于基线方法。