一种基于深度强化学习（DRL）的Transformer方法用于解决开放车间调度问题

arXiv cs.AI 2026/06/15 04:00 论文

deep-reinforcement-learning transformer scheduling optimization open-shop encoder-decoder generalization

摘要

介绍了一种基于Transformer的调度策略，该策略通过强化学习训练，用于开放车间调度问题，展示了在小规模实例上训练的模型能够泛化到更大规模的问题，并与经典调度启发式算法竞争。

arXiv:2606.13682v1 类型：新发布摘要：开放车间调度问题（OSSP）出现在许多工业和服务环境中，但随着作业和机器数量的增加，计算上仍具有挑战性。虽然精确方法很快变得难以处理，但经典的调度规则和元启发式算法可能需要大量调整才能在大规模下保持解的质量。本研究开发了一种基于Transformer的OSSP调度策略，采用编码器-解码器架构和多头注意力机制。该模型在Taillard基准实例（4x4、5x5、7x7和10x10）上进行训练，仅使用加工时间矩阵作为输入，生成可行的调度方案，其最大完工时间通常在已知最优值的15-30%以内。为了评估可扩展性，将训练好的策略（无需重新训练）应用于从40x40到100x100的随机生成实例，并与经典调度启发式算法（包括SPT、LPT、MWKR和EST）进行比较。在这些大规模实例中，Transformer相对于标准下界的平均差距为12.89-15.12%。与EST相比，Transformer仍然具有竞争力，通常差距很小，同时显著优于SPT和LPT。这些结果表明，在小规模OSSP实例上训练的Transformer策略能够泛化到更大的问题，并为经典调度规则提供了一种轻量级、基于学习的替代方案。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:08

# 一种基于深度强化学习（DRL）的Transformer方法求解开放车间调度问题
来源：https://arxiv.org/abs/2606.13682
查看PDF (https://arxiv.org/pdf/2606.13682)

> 摘要：开放车间调度问题 \(OSSP\) 出现在许多工业和服务场景中，但随着作业和机器数量的增加，其计算难度仍然很大。虽然精确方法很快变得难以处理，但经典调度规则和元启发式方法可能需要大量调整才能在大规模下保持解的质量。本研究开发了一种基于Transformer的OSSP调度策略，采用编码器-解码器架构和多头注意力机制。该模型使用Taillard基准实例（4x4、5x5、7x7和10x10）进行训练，仅以加工时间矩阵作为输入，生成可行调度，其最大完工时间通常接近已知最优值的15-30%。为了评估可扩展性，将训练好的策略无需重新训练直接应用于从40x40到100x100的随机生成实例，并与经典调度启发式方法（包括SPT、LPT、MWKR和EST）进行比较。在这些大规模实例上，Transformer相对于标准下界的平均差距为12.89%-15.12%。与EST相比，Transformer保持了竞争力，通常差距较小，同时显著优于SPT和LPT。这些结果表明，在小型OSSP实例上训练的Transformer策略可以泛化到显著更大的问题，并为经典调度规则提供了一种轻量级、基于学习的替代方案。

## 提交历史

来自：Faezeh Ardali [查看电子邮件 (https://arxiv.org/show-email/a1cde39c/2606.13682)] **\[v1\]** 2026年3月25日星期三 15:19:19 UTC (496 KB)

一种基于深度强化学习（DRL）的Transformer方法用于解决开放车间调度问题

相似文章

面向可扩展多任务强化学习的大决策模型

基于强化学习的智能体Transformer可证明地学会搜索

无神经元智能交通——基于表格强化学习的公平地铁网络扩展

MechRL：强化学习代理用于机制可解释性中的电路发现

SCALE：面向智能体工作流调度的可扩展交叉注意力学习与外推方法

提交意见反馈