一种基于深度强化学习(DRL)的Transformer方法用于解决开放车间调度问题

arXiv cs.AI 论文

摘要

介绍了一种基于Transformer的调度策略,该策略通过强化学习训练,用于开放车间调度问题,展示了在小规模实例上训练的模型能够泛化到更大规模的问题,并与经典调度启发式算法竞争。

arXiv:2606.13682v1 类型:新发布 摘要:开放车间调度问题(OSSP)出现在许多工业和服务环境中,但随着作业和机器数量的增加,计算上仍具有挑战性。虽然精确方法很快变得难以处理,但经典的调度规则和元启发式算法可能需要大量调整才能在大规模下保持解的质量。本研究开发了一种基于Transformer的OSSP调度策略,采用编码器-解码器架构和多头注意力机制。该模型在Taillard基准实例(4x4、5x5、7x7和10x10)上进行训练,仅使用加工时间矩阵作为输入,生成可行的调度方案,其最大完工时间通常在已知最优值的15-30%以内。为了评估可扩展性,将训练好的策略(无需重新训练)应用于从40x40到100x100的随机生成实例,并与经典调度启发式算法(包括SPT、LPT、MWKR和EST)进行比较。在这些大规模实例中,Transformer相对于标准下界的平均差距为12.89-15.12%。与EST相比,Transformer仍然具有竞争力,通常差距很小,同时显著优于SPT和LPT。这些结果表明,在小规模OSSP实例上训练的Transformer策略能够泛化到更大的问题,并为经典调度规则提供了一种轻量级、基于学习的替代方案。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:08

# 一种基于深度强化学习(DRL)的Transformer方法求解开放车间调度问题
来源:https://arxiv.org/abs/2606.13682
查看PDF (https://arxiv.org/pdf/2606.13682)

> 摘要:开放车间调度问题 \(OSSP\) 出现在许多工业和服务场景中,但随着作业和机器数量的增加,其计算难度仍然很大。虽然精确方法很快变得难以处理,但经典调度规则和元启发式方法可能需要大量调整才能在大规模下保持解的质量。本研究开发了一种基于Transformer的OSSP调度策略,采用编码器-解码器架构和多头注意力机制。该模型使用Taillard基准实例(4x4、5x5、7x7和10x10)进行训练,仅以加工时间矩阵作为输入,生成可行调度,其最大完工时间通常接近已知最优值的15-30%。为了评估可扩展性,将训练好的策略无需重新训练直接应用于从40x40到100x100的随机生成实例,并与经典调度启发式方法(包括SPT、LPT、MWKR和EST)进行比较。在这些大规模实例上,Transformer相对于标准下界的平均差距为12.89%-15.12%。与EST相比,Transformer保持了竞争力,通常差距较小,同时显著优于SPT和LPT。这些结果表明,在小型OSSP实例上训练的Transformer策略可以泛化到显著更大的问题,并为经典调度规则提供了一种轻量级、基于学习的替代方案。

## 提交历史

来自:Faezeh Ardali [查看电子邮件 (https://arxiv.org/show-email/a1cde39c/2606.13682)] **\[v1\]** 2026年3月25日星期三 15:19:19 UTC (496 KB)

相似文章

面向可扩展多任务强化学习的大决策模型

arXiv cs.LG

本文介绍了LDM-v0,一个在来自数千个多样强化学习环境的轨迹上离线训练的大决策模型,证明了单一的Transformer策略可以在机器人、自动驾驶、库存管理、网络安全、交易和视频游戏等领域匹配特定任务策略的性能。

基于强化学习的智能体Transformer可证明地学会搜索

arXiv cs.LG

本文从理论上研究了基于Transformer的策略如何从随机树环境中的强化学习训练动态中获得搜索能力。研究表明,一个双头Transformer可以实现深度优先搜索,并且在深度分阶段课程下,这种机制会自然地从稀疏奖励信号中涌现。

无神经元智能交通——基于表格强化学习的公平地铁网络扩展

arXiv cs.LG

阿姆斯特丹大学的研究人员提出了一种基于表格强化学习的地铁网络扩展问题方法,表明该方法在性能上与深度强化学习相当,同时平均减少18倍的训练回合数和12倍的碳排放量。该方法还融入了社会公平标准,并在西安和阿姆斯特丹的真实地铁网络上进行了评估。