噪声非平稳物联网环境中基于主动推理的自适应交通信号控制
摘要
本文提出了一种用于噪声物联网环境中自适应交通信号控制的主动推理控制器,在传感器遮挡和恶劣天气条件下,空闲时间和CO2排放均优于DQN。
arXiv:2606.13698v1 公告类型:交叉
摘要:在配备物联网的城市交叉口中,交通信号控制必须在传感器遮挡、天气衰减和非平稳需求下保持有效。传统控制器在这些条件下性能下降,而学习到的策略难以审计。为解决这些挑战,我们提出了一种针对四臂信号交叉口的主动推理控制器,通过最小化关于各方向拥堵水平的高斯信念的预期自由能(EFE)来动态选择相位,从而形成完全可追溯的决策流程。我们在SUMO交通模拟器中将该控制器与基于规则的经验模型和深度Q网络(DQN)进行了基准测试,涵盖四种逐渐增加噪声和非平稳性的场景,包括传感器遮挡、恶劣天气和随机事故。在每个场景的100次独立随机评估中,主动推理在最嘈杂的场景下实现了最低的空闲时间和CO2排放(空闲时间56,977秒,CO2排放29.12千克,而DQN分别为71,741秒和30.56千克)。这些性能提升以公交优先服务率和相位切换频率的适度成本为代价。
查看缓存全文
缓存时间: 2026/06/15 09:13
# 噪声非平稳物联网环境中自适应交通信号控制的主动推理 来源:https://arxiv.org/abs/2606.13698 查看PDF(https://arxiv.org/pdf/2606.13698) > 摘要:在配备物联网的交叉口中,城市交通信号控制必须在传感器遮挡、天气衰减和非平稳需求下保持有效。传统控制器在这些条件下性能下降,而学习到的策略仍难以审计。为应对这些挑战,我们提出了一种针对四臂信号交叉口的主动推理控制器,它通过最小化关于每个方向拥堵水平的高斯信念的期望自由能(EFE)来动态选择相位,从而形成完全可追踪的决策流水线。我们在SUMO交通模拟器中,将控制器与基于规则的启发式方法和深度Q网络(DQN)进行了基准测试,涵盖了四个场景,这些场景逐步增加噪声和非平稳性,包括传感器遮挡、恶劣天气和随机事故。在每个场景的100次独立随机评估中,主动推理在最嘈杂的场景中实现了最低的闲置时间和CO2排放(56,977秒和29.12千克,而DQN为71,741秒和30.56千克)。这些增益是以公交优先服务率和相位切换频率的适度成本为代价的。 ## 提交历史 来自:Alfreds Lapkovskis [查看电子邮件(https://arxiv.org/show-email/d40aab49/2606.13698)]**[v1]**2026年5月31日星期日 19:15:13 UTC(126 KB)
相似文章
用于城市设计的智能监控系统:基于人工智能的十字路口软基础设施分析
本学术论文介绍了一种基于人工智能的分析框架,利用现有的监控系统基础设施,评估交通软性干预措施对城市十字路口车辆速度和安全性所产生的影响。
自动驾驶中基于不确定性感知与时间规制的专家建议强化学习
本文提出了一种面向自动驾驶的不确定性感知强化学习框架,通过自适应不确定性阈值和承诺-冷却策略引导的专家建议,提升了安全性和效率。在CARLA模拟器上的实验表明,相较于IQN基线,成功率提高了5%-7%。
面向行人行为不确定性的安全自动驾驶的多智能体强化学习
本文提出了一种多智能体强化学习框架,该框架同时训练自动驾驶车辆和具有个性驱动乱穿马路行为的行人,与单智能体方法相比,碰撞率降低了30%,并展示了更真实的交互场景。
从累积约束到自适应运行时安全控制用于非平稳强化学习
提出CPSS,一种运行时安全机制,将累积成本约束转换为自适应状态级阈值,用于非平稳环境中的安全强化学习,在高速公路合流场景中展示了违规次数的减少。
OracleTSC:用于交通信号控制的 Oracle 信息奖励门槛与不确定性正则化
本文介绍了 OracleTSC,该方法利用 Oracle 信息奖励门槛和不确定性正则化来稳定大语言模型(LLMs)在交通信号控制中的强化微调。实验表明,该方法在使用 LLaMA-3-8B 模型的同时保持了可解释性,并在 LibSignal 基准测试中显著提升了交通流量指标。