PlanningBench: 生成可扩展且可验证的规划数据,用于评估和训练大型语言模型
摘要
PlanningBench 是一个用于生成可扩展、多样且可验证的规划数据的框架,以评估和训练大型语言模型。该框架采用约束驱动的合成流程,具备自适应难度控制和质量过滤功能。实验表明,前沿大语言模型在处理耦合约束时仍存在困难,而基于 PlanningBench 数据的强化学习能够提升模型在未见过的规划任务上的表现。
arXiv:2605.20873v1 公告类型:新
摘要:规划是大型语言模型(LLMs)的一项基本能力,因为这类复杂任务要求模型将目标、约束、资源和长期后果协调成可执行且可验证的解决方案。然而,现有的规划基准通常将规划数据视为固定的实例集合,而非可控的生成目标。这限制了场景覆盖范围,将难度与表面代理而非结构根源挂钩,并且对可扩展生成、自动验证或面向规划的训练提供的支持有限。我们提出 PlanningBench,这是一个用于生成可扩展、多样且可验证的规划数据的框架,既可用于评估也可用于训练。PlanningBench 从真实的规划场景出发,将实际工作流程抽象成一个包含超过30种任务类型、子任务、约束族和难度因素的结构化分类体系。在此分类体系的指导下,一个约束驱动的合成流程会实例化自包含的规划问题,并具备自适应难度控制、质量过滤和实例级验证清单。这将规划数据构建从固定基准集收集转变为可控生成,同时保留真实的任务基础。我们使用 PlanningBench 评估开源和闭源的前沿大语言模型,发现当前模型在处理耦合约束时仍难以生成完整的解决方案。除评估外,基于经过验证的 PlanningBench 数据的强化学习还能提升模型在未见过的规划基准和更广泛的指令遵循任务上的表现。进一步分析表明,确定或明确指定的最优解能提供更清晰的奖励信号和更稳定的训练动态。总体而言,PlanningBench 为诊断和改进 LLM 中的通用规划能力提供了一个可控的规划数据来源。
查看缓存全文
缓存时间: 2026/05/22 08:49
# PlanningBench:生成可扩展且可验证的规划数据,用于评估和训练大语言模型 来源:https://arxiv.org/abs/2605.20873 查看PDF(https://arxiv.org/pdf/2605.20873) > 摘要:规划是大语言模型(LLM)的一项基础能力,因为此类复杂任务要求模型将目标、约束、资源和长期后果协调为可执行、可验证的解决方案。然而,现有的规划基准通常将规划数据视为固定的实例集合,而非可控制的生成目标。这限制了场景覆盖范围,将难度与表层代理指标而非结构性来源挂钩,并且对可扩展生成、自动验证或面向规划的训练支持有限。我们提出PlanningBench,一个用于生成可扩展、多样且可验证的规划数据(兼顾评估与训练)的框架。PlanningBench从真实规划场景出发,将实际工作流程抽象为结构化的分类体系,涵盖30多种任务类型、子任务、约束族和难度因素。在该分类体系指导下,一个基于约束驱动的合成流水线会实例化自包含的规划问题,并具备自适应难度控制、质量过滤和实例级验证检查表。这使规划数据构建从固定基准集合转向可控生成,同时保留真实的任务基础。我们使用PlanningBench评估开源和闭源前沿大语言模型,发现当前模型在耦合约束下仍难以生成完整解决方案。除了评估之外,基于已验证的PlanningBecnch数据进行强化学习,能够提升模型在未见过的规划基准以及更广泛的指令遵循任务上的表现。进一步的分析表明,确定性的或充分指定的最优解能提供更清晰的奖励信号和更稳定的训练动态。总体而言,PlanningBench为诊断和提升大语言模型的可泛化规划能力提供了可控的规划数据来源。 ## 提交历史 来自:Zhao Wang \[查看邮箱(https://arxiv.org/show-email/ff3706ed/2605.20873)\] **\[v1\]** 2026年5月20日星期三 08:10:15 UTC(1,614 KB)
相似文章
EnvSimBench:用于评估和改善基于大语言模型的环境模拟的基准
本文介绍了 EnvSimBench,这是一个用于评估大语言模型在智能体训练中模拟环境能力的基准。它指出了当前大语言模型中存在的“状态变化悬崖”问题,并提出了一种约束驱动的流水线以减少幻觉和降低成本。
Flat-Pack Bench:通过家具组装评估大型视觉-语言模型的时空理解能力
介绍了Flat-Pack Bench,一个通过家具组装任务评估大型视觉-语言模型细粒度时空推理能力的基准测试。实验表明,当前的LVLMs在跟踪和空间交互方面存在困难。
Conv-to-Bench: 通过用户-助手对话评估语言模型在代码任务中的表现
Conv-to-Bench 是一个多阶段框架,能够自动将多轮用户-助手对话转化为结构化的、可验证的需求清单,用于评估大型语言模型在代码任务上的表现,以较低的计算成本实现了与人工编写的基准近乎完美的对齐。
基于大语言模型的零样本目标识别
本文首次系统性地对前沿大语言模型在经典PDDL规划基准上的零样本目标识别能力进行评估,发现部分模型能随证据积累而扩展性能,而另一些模型则始终依赖世界知识先验,不受观测累积影响。
基于强化学习与可验证奖励的LLM生成式楼层平面设计
本文介绍了一种基于文本的生成式楼层平面设计方法,该方法通过强化学习与可验证奖励对大语言模型进行微调,以提高对拓扑和数值约束的遵循程度,与现有方法相比取得了显著改进。