投影潜在强化学习动作:迈向通用的、可扩展的图组合优化
摘要
本文介绍了用于图组合优化的投影智能体,采用强化学习和图神经网络,在连续动作嵌入空间中运行,以提升泛化能力和可扩展性,并发布了LaGCO-RL库。
arXiv:2605.19721v1 公告类型:新
摘要:图组合优化(GCO)日益受到关注,因为许多NP难问题自然可以表示为图的形式,但其组合爆炸使得精确方法在计算上难以处理。近期强化学习(RL)与图神经网络(GNN)的结合显著改进了基于学习的GCO求解器。然而,现有方法在跨不同图实例的泛化能力以及随着动作空间增长的计算可扩展性方面存在局限性。为应对这两项挑战,我们引入了投影智能体,这是一种新颖的RL-GCO方法,它直接在连续的基于GNN的动作嵌入空间中运行,通过单次前向传播预测期望的潜在动作,随后将其解码为有效的离散动作。此外,通过共享的观测和动作嵌入空间,我们实现了RL方法之间的公平比较。在多个基准测试中,我们的方法仅使用简单的最近邻解码,推理速度比现有解决方案快达16.2倍,泛化能力提升高达40%,同时为具有多个相互依赖变量的超线性决策空间中实现强大的RL性能打开了大门。最后,我们发布了LaGCO-RL,一个自动构建潜在动作空间并支持现有RL-GCO解决方案的Python库,促进了可复现性及对新GCO基准的适应。
相似文章
GRLO:从零开始迈向开放环境下的通用强化学习
GRLO 提出了一种新颖的强化学习后训练方法,仅使用 5000 条提示和 22.7 GPU 小时,就在多个领域(数学、代码等)实现了强大的泛化能力,在效率和数据需求上显著优于领域内的 RLVR 基线。
GraphReAct:面向多步图推理的推理与行动
本文介绍了 GraphReAct,这是一个将推理与行动范式扩展到图结构数据以进行多步推理的框架。它结合了拓扑检索、语义检索以及上下文精炼,以提升在图学习基准测试上的性能。
ExpGraph:面向LLM智能体的模型无关经验学习与图结构记忆
ExpGraph是一个模型无关的框架,通过自进化的技能与失败经验图,使LLM智能体能够复用过往经验,在不重新训练执行器的情况下将任务性能提升12%-21%。
学习探索:通过探索感知策略优化扩展代理推理
本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。
表示学习助力可扩展多任务深度强化学习
本文认为,表示学习(而非基于模型的规划)是可扩展多任务深度强化学习的关键。文章介绍了MR.Q,一种简单的无模型算法,通过辅助预测目标,在多种连续控制任务上优于之前基于世界模型的方法。