用于多重图可扩展路由的两阶段学习分解

arXiv cs.LG 论文

摘要

本文提出了节点-边策略分解(NEPF)方法,以解决多重图上车辆路径问题(VRP)的可扩展性难题。该方法结合了预编码边聚合与分层强化学习,在加快训练和推理速度的同时,实现了最先进的求解质量。

arXiv:2605.05389v1 公告类型:新文章 摘要:大多数用于车辆路径问题(VRP)的神经网络方法仅限于欧几里得环境或简单图。在本文中,我们转而考虑多重图,其中平行边代表具有不同权衡(例如距离与时间)的不同出行选项。针对此类公式设计的方法寥寥无几,且现有方法面临严重的可扩展性问题。我们通过节点-边策略分解(NEPF)方法缓解了这些可扩展性问题,该方法将路由策略分为节点排列阶段和边选择阶段。为了实现这种分解,我们引入了预编码边聚合方案和非自回归的边阶段架构,以及分层强化学习方法以联合训练这两个阶段。我们在六种VRP变体上的实验表明,NEPF在求解质量方面与当前最先进的方法持平或优于它们,同时在训练和推理速度上显著提升。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 07:14

# 面向多图可扩展路由的两阶段学习分解
来源:https://arxiv.org/abs/2605.05389
查看 PDF (https://arxiv.org/pdf/2605.05389)

> 摘要:大多数针对车辆路径问题(VRP)的神经方法仅限于欧几里得设置或简单图。在本研究中,我们转而考虑多图,其中平行边代表具有不同权衡(例如,距离与时间)的不同旅行选择。为此类公式设计的现有方法寥寥无几,且存在的方法面临严重的可扩展性问题。我们通过节点-边策略分解(NEPF)方法缓解了这些可扩展性问题,该方法将路由策略分解为节点排列阶段和边选择阶段。为了实现这种分解,我们引入了预编码边聚合方案以及用于边阶段的非自回归架构,并采用分层强化学习方法联合训练这两个阶段。我们在六种 VRP 变体上的实验表明,NEPF 在解决方案质量上达到或优于最先进的方法,同时在训练和推理速度上显著更快。

## 提交历史

来自:Filip Rydin [查看邮件 (https://arxiv.org/show-email/4d4fdb48/2605.05389)] **\[v1\]** 2026 年 5 月 6 日,星期三 19:23:09 UTC (68 KB)

相似文章

近未来策略优化

Hugging Face Daily Papers

提出近未来策略优化(NPO),一种混合策略强化学习方法,通过在同一训练运行中利用更晚的 checkpoint 学习,加速收敛,将 Qwen3-VL-8B-Instruct 性能从 57.88 提升至 62.84。

RAD-2:在生成器-判别器框架中扩展强化学习

Hugging Face Daily Papers

RAD-2 提出了一个用于自动驾驶的统一生成器-判别器框架,将基于扩散的轨迹生成与强化学习优化的重排序相结合,与基于扩散的规划器相比,碰撞率降低了56%。该方法引入了 Temporally Consistent Group Relative Policy Optimization 和 BEV-Warp 仿真环境等技术,以实现高效的大规模训练。

进化策略梯度

OpenAI Blog

OpenAI 推出进化策略梯度(EPG),这是一种元学习方法,通过进化而非直接学习策略来学习损失函数,使强化学习代理能够通过利用类似人类技能迁移的先验经验,更好地跨任务泛化。

通过有限专家库实现通信高效的专家路由

arXiv cs.LG

本文提出了一种针对稀疏混合专家(MoE)模型中通信高效专家路由的信息论框架,将门控机制视为随机信道,并推导实用的互信息估计器以分析有限专家库上的准确率-速率权衡。

基于价值梯度流的强化学习

Hugging Face Daily Papers

价值梯度流(VGF)提出了一种可扩展的行为正则化强化学习方法,将其构建为通过离散梯度流求解的最优传输问题,在离线强化学习和大型语言模型强化学习基准测试中取得了最先进的成果。该方法消除了显式的策略参数化,同时通过控制传输预算实现了自适应的测试时缩放。