协调实时约束与长期推理:面向动态调度的异步智能体框架

arXiv cs.AI 论文

摘要

本文介绍了RACE-Sched,一种异步智能体框架,它将实时反应式调度与基于LLM的深思熟虑推理解耦,以处理动态作业车间调度问题,在DRL和其他基准方法上取得了更优的性能。

arXiv:2605.29262v1 公告类型:新 摘要:动态柔性作业车间调度问题(DFJSP)需要在即时响应随机扰动与全局优化生产目标之间进行权衡。传统的优先级规则不足以灵活处理复杂干扰,而基于学习的方法通常牺牲可解释性或难以跨问题规模泛化。尽管大型语言模型(LLMs)提供了高级推理能力来弥补这一差距,但其显著的推理延迟与工业控制系统毫秒级的决策周期不兼容。为解决这一矛盾,我们提出了RACE-Sched,一种基于异步智能体的框架,通过双流架构将策略执行与逻辑推理解耦。反应流执行低延迟的符号启发式规则以实现实时调度,而并行的深思流利用LLM来合成、验证和进化这些规则。候选规则在沙箱中经过严格测试,并通过原子更新部署,确保安全性而不阻塞控制回路。此外,语义规则库索引验证过的启发式规则,用于基于检索的初始化,从而增强了跨问题规模的可迁移性。在GEN-Bench、MK-Bench和JMS-Bench上的广泛评估表明,RACE-Sched优于领先的深度强化学习和其他基于LLM的基准方法。该方法协调了实时约束与长期推理,实现了更优的解质量和稳健的动态事件适应能力。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:15

# 动态调度中的实时约束与长时推理协调:一种异步智能体框架

来源:https://arxiv.org/html/2605.29262  
袁元1,3,4††通讯作者。& 刘静2,5,6  
1 北京航空航天大学计算机科学与工程学院,北京 100191,中国  
2 深圳环域研究院,深圳,中国  
3 北京航空航天大学青岛研究院  
4 北京航空航天大学杭州创新研究院  
5 西安电子科技大学人工智能学院,西安 710071,陕西,中国  
6 西安电子科技大学广州研究院,广州 510555,广东,中国  
\{cls1277, yuan21\}@buaa\.edu\.cn, neouma@mail\.xidian\.edu\.cn  

###### 摘要

动态柔性作业车间调度问题(DFJSP)需要在即时应对随机扰动和全局生产目标优化之间取得平衡。传统的优先级规则难以灵活处理复杂干扰,而基于学习的方法往往牺牲可解释性或难以推广到不同问题规模。尽管大型语言模型(LLM)提供了先进的推理能力来弥合这一差距,但其显著的推理延迟与工业控制系统的毫秒级决策周期不相容。为解决这一矛盾,我们引入RACE-Sched,一种基于异步智能体的框架,通过双流架构将策略执行与逻辑推理解耦。反应流执行低延迟符号启发式规则以实现实时调度,而并行的审慎流则利用LLM来合成、验证和演化这些规则。候选规则在沙箱中经过严格测试,并通过原子更新进行部署,确保安全且不阻塞控制环路。此外,语义规则库索引已验证的启发式规则,用于基于检索的初始化,从而增强跨问题规模的可迁移性。在GEN-Bench、MK-Bench和JMS-Bench上的大量评估表明,RACE-Sched优于领先的深度强化学习及其他基于LLM的基线方法。该方法协调了实时约束与长时推理,实现了优越的解决方案质量和对动态事件的鲁棒适应。

## 1 引言

动态柔性作业车间调度问题(DFJSP)是现代制造业中的一个核心在线决策问题,每个就绪工序必须在路径柔性和优先约束下分配给一台可行的异构机器(Xu et al., 2025)。当机器故障、紧急工件到达或加工时间变化改变车间状态时,延迟的调度决策会阻塞可用机器,并通过后续工序传播空闲时间。

数据驱动的调度策略学习可以通过深度强化学习(DRL)实现,但解释其决策面临显著挑战,且这些决策可能易受训练细节变化的影响(Zhang et al., 2020)。优先级调度规则(PDR)易于执行和检查,但它们的刚性结构在瓶颈转移时往往无法适应(Holthaus and Rajendran, 2000)。通过LLM生成可执行规则,“代码即策略”(CaP)提高了调度决策的透明性(Liang et al., 2023)。一个剩余的障碍是响应延迟:在控制环路运行期间调用LLM太慢,无法满足调度系统的实时要求。

根本冲突在于推理与执行之间的时间粒度。诸如GPT-4等高级推理模型需要数秒来处理上下文并生成代码(Hurst et al., 2024)。相比之下,高速生产线中的动态调度决策必须在毫秒内做出,以避免阻塞机器操作(Singh et al., 2026; Ouelhadj and Petrovic, 2009)。简单的集成策略会暂停生产线以等待外部推理,导致不可接受的吞吐量损失。这导致了频率不匹配:LLM的慢认知周期无法与制造车间的快物理周期同步(Karami et al., 2025)。因此,当前方法被迫妥协:要么依赖缺乏适应性的预生成静态规则,要么使用更小、能力较弱的模型,牺牲推理质量换取速度(Shah et al., 2026)。

此外,现有的混合框架通常以阻碍持续在线适应的方式将学习与执行分离。大多数方法依赖于离线训练阶段,从历史数据中推导调度规则(Priore et al., 2014)。一旦部署,这些规则保持静态,无法响应未见的扰动,如突然的机器故障或订单优先级剧烈变化。尽管一些自适应系统尝试定期重新训练策略,但它们通常需要同步交互,从而中断正在进行的调度过程。当前研究的一个关键局限性是缺乏允许在系统运行期间安全且异步地演化控制逻辑的机制。理想的调度系统应使控制逻辑能够持续改进,同时不妨碍物理机器的实时响应能力。

尽管受到异步双流概念的启发(Chen et al., 2026),但直接应用现有的具身智能体到工业调度中会受到可解释性和严格安全保证要求的阻碍。我们不将基于LLM的代码生成、仿真验证和迭代精炼视为新元素,而是关注如何将这些机制安全地集成到运行的DFJSP控制环路中。我们引入RACE-Sched††为促进可重复性,我们的代码可在https://github.com/cls1277/RACE-Sched获取,这是一个框架,其中反应流运行低延迟符号启发式规则,而审慎流利用LLM分析来自最近决策滑动窗口的汇总统计信息,生成候选Python启发式规则,并在沙箱中测试它们,沙箱在相同约束下回放代表性实例。只有满足预定义接受标准的候选者才会被提升。反应流不在关键路径上:它从不等待审慎流,更新通过活动规则集的原子指针交换来执行。

我们还维护一个规则库,索引已验证的启发式规则及轻量级实例级元数据,例如工件数和机器数。审慎流检索最相似的规则以热启动候选生成和沙箱评估,这有助于缩短提示并增强跨问题规模的鲁棒性。

我们的贡献如下:

- • 一种适用于工业约束的异步符号演化框架,通过安全的“代码即策略”机制将实时调度与LLM驱动的启发式合成解耦,确保控制环路保持响应。
- • 一种基于沙箱的验证和安全部署机制,候选启发式规则通过受约束的回放进行离线评估,仅当满足预定义接受标准时才被提升,随后通过活动规则集的原子指针交换进行部署。
- • 一个规则库,索引已验证的启发式规则及轻量级实例级元数据,支持热启动检索,并提高跨不同基准和问题规模的可迁移性。
- • 在GEN-Bench、MK-Bench和JMS-Bench上的广泛评估,包括机器故障压力测试,表明我们的方法比竞争性的DRL基线和直接LLM控制实现了更高的解决方案质量和更快的适应能力。

## 2 相关工作

##### 启发式与进化调度。

优先级调度规则(PDR)因其常数时间复杂度的最小计算成本和易于解释而成为动态调度的工业标准(Holthaus and Rajendran, 2000)。然而,固定的规则如最短处理时间和剩余最多工作是固有短视的。它们依赖本地缓冲区状态,当系统瓶颈因随机扰动而转移时,往往无法保持性能。为了自动化调度策略的设计,遗传规划(GP)已被广泛用于演化符号优先级函数,将生产属性组合成复杂规则(Mei et al., 2016)。尽管诸如代理辅助GP(Mei et al., 2016)和多任务进化(Zhang et al., 2023)等进展提高了收敛速度,但进化过程仍然计算昂贵且离线。这一限制阻止了GP实现快速在线适应,以处理实时环境中的突然机器故障或紧急订单插入。

##### 动态调度的DRL。

为了捕捉复杂的系统动态,近年研究已转向DRL,将调度建模为马尔可夫决策过程(Xu et al., 2025)。状态表示已从简单的特征向量演变为图神经网络,编码作业车间的非欧几里得拓扑(Zhang et al., 2025)。双重注意力网络(Wang et al., 2024b)通过联合关注操作优先约束和机器竞争建立了基准。还开发了针对特定扰动的专用架构,如IDDQN(Wu et al., 2025)用于鲁棒应对机器故障,以及层次框架如HMPSAC(Ding et al., 2025)用于多目标权衡。尽管有这些进展,DRL面临关键的部署障碍。产生的黑箱神经策略缺乏安全关键制造所需的可解释性(Li et al., 2026),并且在不同问题规模之间迁移时往往表现出较差的泛化能力。

参见图注图1:RACE-Sched概览。反应流执行活动符号规则进行实时调度,而审慎流运行LLM驱动的循环,包括约束代码生成和沙箱评估,以产生经过验证的规则更新。经过验证的启发式规则存储在规则库中,用于热启动检索,并通过热交换部署到控制环路。
##### LLM推理与代码即策略。

LLM提供了一条有希望的途径来解决DRL中的可解释性和推理差距。虽然链式思维(Wei et al., 2022)和思维树(Yao et al., 2023)等技术增强了逻辑规划,但推理的高延迟造成了与工业控制毫秒级响应要求的时间不匹配。为了解决这一差异,CaP范式提出生成可执行程序而非直接文本动作(Liang et al., 2023)。这种方法生成快速且可解释的代码,如同开放世界智能体如Voyager所验证的那样(Wang et al., 2024a)。在调度领域,ReflecSched(Cao and Yuan, 2025)最近利用LLM生成层次反思以提供指导。先前的LLM反思和CaP调度方法主要关注合成或精炼可执行策略,而混合离线-在线启发式演化与安全更新方案主要分别处理策略改进和部署风险。RACE-Sched则专注于控制集成问题:它将缓慢的LLM审慎流、沙箱验证和候选策略改进限制在后台,而在线调度器仅执行当前已验证的符号规则,并通过原子热交换接受已接受的更新。

## 3 问题形式化与预备知识

我们考虑DFJSP,涉及将n个工件J = {J1, ..., Jn}分配给m个异构机器M = {M1, ..., Mm}。每个工件Ji ∈ J包含一个严格有序的工序序列Oi = {oi,1, oi,2, ..., oi,ni}。路径柔性允许每个工序oi,j在可行子集Mi,j ⊆ M中的任何机器上执行,其中pi,j,k表示在机器Mk ∈ Mi,j上的确定性加工时间(Cao et al., 2023)。

时间τ的系统状态包括活跃工件的进度、机器可用性以及待处理工序的积压。时间演化由异步随机扰动驱动,这些扰动引起离散状态转变,包括非确定性工件到达和机器故障-恢复周期。在抢占-恢复调度策略下,中断的工序保持挂起,并在机器容量恢复时从中断点恢复执行。目标是最小化期望最大完工时间Cmax,其中Ci表示工件Ji的完成时间,Cmax = max Ji∈J Ci,并受动态制造环境中实时决策约束的制约。

我们将此任务建模为顺序决策过程,在每个决策时刻t,策略π将系统状态映射到工序-机器分配,同时满足优先约束和可用性约束。在此随机环境中,性能优化需要战略推理来解决复杂的操作权衡,例如主动分配机器容量以缓解预期的瓶颈。

## 4 方法

RACE-Sched的详细工作流程图见图1。反应流在控制环路内运行符号优先级规则。维护一个规则库,存储经过验证的启发式规则及轻量级实例级元数据,以支持基于检索的热启动。审慎流使用最近状态和示例动作的紧凑摘要,结合约束代码生成和沙箱评估程序,异步地改进活动规则。

### 4.1 异步双流架构

我们将DFJSP建模为半马尔可夫决策过程,在每个决策时刻t具有状态st和动作at(Chang et al., 2022)。反应流使用符号规则将st映射到调度动作,而审慎流使用基于LLM的推理执行规则更新,该

相似文章