OracleTSC:用于交通信号控制的 Oracle 信息奖励门槛与不确定性正则化

arXiv cs.AI 论文

摘要

本文介绍了 OracleTSC,该方法利用 Oracle 信息奖励门槛和不确定性正则化来稳定大语言模型(LLMs)在交通信号控制中的强化微调。实验表明,该方法在使用 LLaMA-3-8B 模型的同时保持了可解释性,并在 LibSignal 基准测试中显著提升了交通流量指标。

arXiv:2605.08516v1 公告类型:新论文 摘要:透明决策对于交通信号控制(TSC)系统赢得公众信任至关重要。然而,传统的基于强化学习的 TSC 方法往往作为黑盒运行,可解释性有限。尽管大语言模型(LLMs)能够提供自然语言推理,但由于反馈稀疏且延迟,且大多数动作仅导致拥堵指标的边际变化,TSC 的强化微调仍然不稳定。我们提出了 OracleTSC,通过两种机制稳定基于 LLM 的 TSC:(1)奖励门槛机制,通过从环境奖励中减去校准后的阈值来过滤弱学习信号;(2)不确定性正则化,通过最大化所选响应的概率来鼓励在采样输出中保持一致的决策。在 LibSignal 基准测试上的实验表明,OracleTSC 使紧凑的 LLaMA3-8B 模型能够大幅提高交通效率,与预训练基线相比,行程时间减少了 75%,排队长度减少了 67%,同时通过自然语言解释保持了可解释性。OracleTSC 还展示了强大的跨路口泛化能力:在一个路口训练的策略可以迁移到结构不同的另一个路口,无需额外微调即可实现行程时间降低 17%,排队长度降低 39%。这些结果表明,感知不确定性的奖励塑造可以提高 TSC 强化微调的稳定性和有效性。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 07:16

# OracleTSC:面向交通信号控制的 Oracle 引导式奖励门槛与不确定性正则化

**来源:** https://arxiv.org/html/2605.08516

Darryl C. Jacob
[email protected]
奥本大学计算机科学与软件工程系

Xinyu Liu
[email protected]
奥本大学计算机科学与软件工程系

Muchao Ye
[email protected]
爱荷华大学计算机系

Xiaoyong Yuan
[email protected]
克莱姆森大学电气与计算机工程系

Pan He
[email protected]
奥本大学计算机科学与软件工程系

###### 摘要

透明决策对于赢得公众对交通信号控制(TSC)系统的信任至关重要。然而,传统的基于强化学习的 TSC 方法表现为黑盒,对其决策过程几乎不提供任何洞察。尽管大型语言模型(LLMs)可以通过自然语言推理提供所需的可解释性,但它们面临着内存受限以及难以从稀疏的环境反馈中推导最优策略等挑战。现有将强化微调应用于 LLM 的 TSC 方法存在明显的训练不稳定性,且相较于预训练模型仅能带来有限的改进。我们将这种不稳定性归因于 TSC 的长视野特性:反馈稀疏且延迟,大多数控制动作仅对拥堵指标产生微小变化,由此产生的微弱奖励信号与策略梯度优化相互作用较差。我们引入了 OracleTSC,通过以下机制解决这些问题:(1)一种奖励门槛机制,通过从环境反馈中减去校准阈值来过滤微弱的学习信号;(2)通过最大化所选答案的概率来防止策略退化,从而促进多次响应中的一致性决策。在标准 LibSignal 基准测试上的实验表明,我们的方法使紧凑型模型(LLaMA3-8B)在交通流量方面取得了显著改善,相较于预训练基线,旅行时间减少了 75%,队列长度减少了 67%,同时通过自然语言解释保留了可解释性。此外,该方法表现出强大的跨路口泛化能力:在一个路口上训练的策略可以迁移到结构不同的路口,旅行时间降低 17%,队列长度降低 39%,且无需针对目标拓扑进行任何额外的微调。这些发现表明,感知不确定性的奖励塑形可以稳定强化微调,并为提高其在 TSC 任务中的有效性提供新视角。

## 1 引言

大多数针对大型语言模型(LLMs)的强化微调局限于问答和摘要等短视野任务 [Cobbe et al. (2021)](https://arxiv.org/html/2605.08516#bib.bib4); [Hendrycks et al. (2021)](https://arxiv.org/html/2605.08516#bib.bib5); [Rein et al. (2024)](https://arxiv.org/html/2605.08516#bib.bib6),在这些任务中,模型动作的结果可立即观察或验证,从而简化了信用分配问题。与短视野任务不同,长视野 RL 问题——如在较长时间内优化交通信号 [Zhang et al. (2019)](https://arxiv.org/html/2605.08516#bib.bib9); [Mei et al. (2024)](https://arxiv.org/html/2605.08516#bib.bib7); [He et al. (2024)](https://arxiv.org/html/2605.08516#bib.bib8)——提出了独特的挑战。尽管最近的开创性研究探讨了将 LLM 应用于交通信号控制(TSC) [Wang et al. (2024a)](https://arxiv.org/html/2605.08516#bib.bib11); [Lai et al. (2025b)](https://arxiv.org/html/2605.08516#bib.bib10),但这些方法通常依赖外部组件——如用于策略学习和轨迹过滤的预训练评论家模型,或与常规 TSC 算法集成以辅助决策。这种依赖性限制了 TSC 系统的自主性和可扩展性,并源于实际约束:应用于 TSC 的 LLM 必须做出决策,其长期效用仅在许多时间步之后才显现出来。然而,使用金标准思维链(CoT) [Wei et al. (2022b)](https://arxiv.org/html/2605.08516#bib.bib14) 注释来引发这种长视野行为是不切实际的,因为状态-动作空间随模拟长度呈指数级增长。

> **图 1:OracleTSC 框架概述。** 交通状态被转换为 LLM 策略的提示,LLM 从采样响应中生成候选信号相位。所提出的奖励门槛机制(RHM)强调高影响动作,而不确定性正则化惩罚高熵响应。这两个目标在 PPO 框架下联合优化,产生用于自适应交通信号控制的改进策略。

**关键观察与洞察。** 虽然近端策略优化(PPO)是长视野 TSC 的自然框架,但我们发现,在现实交通动态下优化基于 LLM 的策略时,它难以产生一致的增益,这与最近在 LLM 驱动的 TSC 中的观察结果一致 [Lai et al. (2025b)](https://arxiv.org/html/2605.08516#bib.bib10)。我们的实证分析进一步确定了两个尤其突出的反复出现的故障模式。

(1)**弱奖励信号强化次优动作。** 在 TSC 中,大多数可行的相位变化仅导致平均队列长度等拥堵指标的微小改进——或轻微恶化。因此,奖励信号微弱且常被随机性掩盖,产生极小的策略梯度更新。PPO 倾向于将学习分散到许多影响甚微的动作上,而不是强化那些真正有帮助的少数动作。交通响应的延迟和强烈的时间依赖性加剧了这一问题:信号变化的影响可能仅在多步后才出现,使得正确分配信用变得困难。因此,尽管进行了长时间训练,学习进展缓慢甚至停滞。

(2)**输出不确定性下的推理漂移。** 我们进一步观察到,当 LLM 策略不确定时,对于相同的交通状态,其生成的解释在多次响应中差异很大,导致相位选择不一致。我们将这种行为称为**推理漂移**。它将随机性直接注入动作选择过程,并允许误差随时间累积。值得注意的是,生成更长或更详细的推理并不能解决此问题。只有当模型的输出集中于单一动作时,稳定的决策才会出现。在实践中,这表现为早期训练期间响应间的高变异性,只有在明确惩罚不确定性时才会减少。

共同地,这些观察结果突出了在短视野或基于规则的强化学习任务中通常不会遇到的挑战,但在 TSC 系统中却至关重要,因为奖励稀疏、延迟且信息量弱,且时间上的一致性对于稳定的 TSC 控制至关重要。

为了解决这些局限性,我们引入了 **OracleTSC**,这是一种交通信号控制框架,使用奖励门槛过滤低影响更新,并使用 Softmax 离散语义熵正则化器稳定推理。这些组件共同产生了更强大、更一致的控制策略,并在不同的路口设置中提供更清晰、更可靠的解释。我们在 TSC 的标准基准 **LibSignal** [Mei et al. (2024)](https://arxiv.org/html/2605.08516#bib.bib7) 上评估了 OracleTSC。结果表明,在门槛率下调整针对时变流入的奖励,结合最小化语义熵——衡量为随机令牌生成下多个不同答案模式的存在——提高了控制性能和模型解释的一致性。

**贡献。** 总之,我们的贡献如下:

- 尽管先前的研究强调了针对具有时变交通模式的长视野 TSC 任务微调 PPO 的挑战,但我们发现**对次优动作的抑制不足**是造成这一困难的关键因素。为了解决这个问题,我们引入了一种简单的惩罚,施加明确的性能阈值,惩罚低于基线的动作。通过抑制低质量策略更新,我们引入的奖励门槛机制(RHM)放大了高影响动作的学习信号,从而带来显著的性能提升。
- 我们提出了一种原则性的方法来量化和缓解响应间的不确定性,通过引入基于温度缩放 softmax 的语义熵奖励作为策略优化中的正则化项。这种**感知不确定性的机制**抑制了长视野推理中的漂移,并在多项指标上提高了 TSC 性能,包括缩短队列长度和减少旅行时间。
- 我们表明,我们的 OracleTSC 不仅增强了策略稳定性,还在不同模型规模下带来一致的性能增益,有效缩短队列长度并提高生成解释的一致性。该模型还表现出强大的跨路口泛化能力,在一个路口上训练并在结构不同的新路口上测试时表现良好。

## 2 相关工作

**交通信号控制。** 早期的 TSC 系统依赖于基于规则的启发式和固定时间表,无法适应时变的交通模式 [Board et al. (2015)](https://arxiv.org/html/2605.08516#bib.bib48); [Martinez et al. (2011)](https://arxiv.org/html/2605.08516#bib.bib51)。Max Pressure (MP) 控制 [Varaiya (2013)](https://arxiv.org/html/2605.08516#bib.bib49) 等经典算法通过激活与加权队列差成比例的信号相位来提高吞吐量,但仍局限于局部优化。深度强化学习(DRL)引入了基于经验学习的自适应决策。IntelliLight [Wei et al. (2018)](https://arxiv.org/html/2605.08516#bib.bib64) 通过利用真实世界视频衍生数据训练深度 Q 网络开创了这一方向,而 PressLight [Wei et al. (2019a)](https://arxiv.org/html/2605.08516#bib.bib55) 将 MP 理论扩展到其奖励函数中以指导高效的信号控制。后续工作改进了泛化和协调:AdLight [Wang et al. (2023)](https://arxiv.org/html/2605.08516#bib.bib60) 利用运动级增强来编码细粒度的车辆交互,而 [Wang et al. (2024b)](https://arxiv.org/html/2605.08516#bib.bib61); [Jiang et al. (2024)](https://arxiv.org/html/2605.08516#bib.bib63) 提出了路口矩阵和拓扑映射方法,实现了跨异构路口的零样本迁移。其他进展强调了鲁棒性和样本效率——FuzzyLight [Li et al. (2025a)](https://arxiv.org/html/2605.08516#bib.bib72) 使用模糊逻辑处理噪声传感器,而 DreamerV3 [Li et al. (2025b)](https://arxiv.org/html/2605.08516#bib.bib71) 结合世界模型执行潜在 rollout,降低了环境模拟成本。

重要的是,我们的目标并不是声称优于所有现有的 RL 算法或完全优化的黑盒 RL 系统。高度优化的、不可解释的 RL 控制器在几个基准上仍然很强。相反,我们的目标是在保留自然语言推理和语义级不确定性建模的同时,提高可解释的基于 LLM 的控制器的性能、稳定性和可靠性。最近的工作已经开始探索使用 LLM 通过显式推理和可解释的决策来克服这些局限性。LLMLight [Lai et al. (2025a)](https://arxiv.org/html/2605.08516#bib.bib47) 表明,用结构化交通状态提示预训练 LLM 可以实现对相位选择的自然语言解释,而 VLMLight [Wang et al. (2025)](https://arxiv.org/html/2605.08516#bib.bib67) 将其扩展到多模态、视觉-语言推理以用于安全关键路口。然而,这些方法主要依赖零样本提示或监督模仿,缺乏长视野策略改进所需的闭环优化。弱或有噪声的奖励信号减慢收敛速度,允许次优推理在长视野任务中淹没有益动作。标准的 PPO 稳定器,如裁剪比率、奖励归一化和优势缩放,可以缓解但并不能消除训练漂移,使得基于 LLM 的 TSC 在弱和延迟奖励下容易受到不稳定梯度的影响。这暴露了控制方差和认知不确定性之间的共同挑战。

受这种联系的启发,我们将不确定性不仅视为诊断信号,而且视为直接的优化目标。虽然 PPO 和奖励塑形在强化学习中已很成熟,但我们的贡献在于证明,有针对性的奖励阈值化和不确定性正则化可以显著提高基于 LLM 的交通信号控制的稳定性。

除了决策和控制之外,最近的工作还探讨了使用 LLM 进行自动算法设计和启发式发现。最近的一项系统性调查 [Liu et al. (2026)](https://arxiv.org/html/2605.08516#bib.bib107) 强调了 LLM 如何生成可执行算法、基于代码的解决方案和结构化推理过程,从而提高可解释性和响应性。同样,《启发式演变》 [Liu et al. (2024)](https://arxiv.org/html/2605.08516#bib.bib108) 表明,LLM 可以迭代地细化算法策略,实现特定问题求解器的高效自动设计。这些方法主要关注合成或演化离散的算法程序。相比之下,交通信号控制需要在随机控制环境中,在弱、延迟的奖励反馈下进行稳定的策略优化。我们的工作是对这一领域的补充:我们不是设计新的符号算法,而是研究如何直接稳定基于 LLM 的控制器的强化微调,从而实现自主、可解释的决策,而不依赖外部评论家或混合集成。

**不确定性量化与减少。** 一条平行的研究线专注于通过不确定性量化和熵最小化来提高 LLM 中推理的可靠性和可信度。EMPO [Zhang et al. (2025)](https://arxiv.org/html/2605.08516#bib.bib74) 和 RENT [Prabhudesai et al. (2025)](https://arxiv.org/html/2605.08516#bib.bib86) 等无监督微调框架通过分别在答案和令牌级别最小化熵,消除了对标记奖励模型的需求,实现了信心驱动的优化。基于 CoT 提示 [Wei et al. (2022a)](https://arxiv.org/html/2605.08516#bib.bib75),UnCert-CoT [Zhu et al. (2025)](https://arxiv.org/html/2605.08516#bib.bib76) 利用令牌级熵信号触发额外的推理步骤,而 Uncertainty of Thoughts [Huo et al. (2024)](https://arxiv.org/html/2605.08516#bib.bib77) 将推理过程建模为决策树,其中 LLM 生成自查询并选择最大化最终答案熵减少的分支。语义熵 [Kuhn et al. (2023)](https://arxiv.org/html/2605.08516#bib.bib90); [Farquhar et al. (2024)](https://arxiv.org/html/2605.08516#bib.bib91) 进一步通过利用推理路径和答案候选之间的双向蕴涵作为语义类真实熵的代理来细化这些原则。这种方法将语义熵值与模型错误的概率联系起来,提供了理论上扎实的置信度度量。同时,核语言熵(KLE)[Nikitin et al. (2024)](https://arxiv.org/...

相似文章

TRACER:基于追踪的自适应成本高效路由用于LLM分类

Hugging Face Daily Papers

TRACER是一个开源系统,它在LLM分类端点的生产追踪数据上训练轻量级机器学习代理,并通过一个一致性门控路由请求,仅当代理与原始模型的一致性超过指定阈值时才激活代理。该方法在意图分类基准上实现了83-100%的代理覆盖率,同时保持了对处理边界和故障模式的可解释性。

用 LLM 优化 LLM:面向测试时扩展的智能体发现方法

Hugging Face Daily Papers

本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。