用于多重图可扩展路由的两阶段学习分解

arXiv cs.LG 2026/05/08 04:00 论文

摘要

本文提出了节点-边策略分解（NEPF）方法，以解决多重图上车辆路径问题（VRP）的可扩展性难题。该方法结合了预编码边聚合与分层强化学习，在加快训练和推理速度的同时，实现了最先进的求解质量。

arXiv:2605.05389v1 公告类型：新文章摘要：大多数用于车辆路径问题（VRP）的神经网络方法仅限于欧几里得环境或简单图。在本文中，我们转而考虑多重图，其中平行边代表具有不同权衡（例如距离与时间）的不同出行选项。针对此类公式设计的方法寥寥无几，且现有方法面临严重的可扩展性问题。我们通过节点-边策略分解（NEPF）方法缓解了这些可扩展性问题，该方法将路由策略分为节点排列阶段和边选择阶段。为了实现这种分解，我们引入了预编码边聚合方案和非自回归的边阶段架构，以及分层强化学习方法以联合训练这两个阶段。我们在六种VRP变体上的实验表明，NEPF在求解质量方面与当前最先进的方法持平或优于它们，同时在训练和推理速度上显著提升。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 07:14

# 面向多图可扩展路由的两阶段学习分解
来源：https://arxiv.org/abs/2605.05389
查看 PDF (https://arxiv.org/pdf/2605.05389)

> 摘要：大多数针对车辆路径问题（VRP）的神经方法仅限于欧几里得设置或简单图。在本研究中，我们转而考虑多图，其中平行边代表具有不同权衡（例如，距离与时间）的不同旅行选择。为此类公式设计的现有方法寥寥无几，且存在的方法面临严重的可扩展性问题。我们通过节点-边策略分解（NEPF）方法缓解了这些可扩展性问题，该方法将路由策略分解为节点排列阶段和边选择阶段。为了实现这种分解，我们引入了预编码边聚合方案以及用于边阶段的非自回归架构，并采用分层强化学习方法联合训练这两个阶段。我们在六种 VRP 变体上的实验表明，NEPF 在解决方案质量上达到或优于最先进的方法，同时在训练和推理速度上显著更快。

## 提交历史

来自：Filip Rydin [查看邮件 (https://arxiv.org/show-email/4d4fdb48/2605.05389)] **\[v1\]** 2026 年 5 月 6 日，星期三 19:23:09 UTC (68 KB)

用于多重图可扩展路由的两阶段学习分解

相似文章

近未来策略优化

RAD-2：在生成器-判别器框架中扩展强化学习

进化策略梯度

通过有限专家库实现通信高效的专家路由

基于价值梯度流的强化学习

提交意见反馈