PlanningBench: 生成可扩展且可验证的规划数据,用于评估和训练大型语言模型

arXiv cs.AI 论文

摘要

PlanningBench 是一个用于生成可扩展、多样且可验证的规划数据的框架,以评估和训练大型语言模型。该框架采用约束驱动的合成流程,具备自适应难度控制和质量过滤功能。实验表明,前沿大语言模型在处理耦合约束时仍存在困难,而基于 PlanningBench 数据的强化学习能够提升模型在未见过的规划任务上的表现。

arXiv:2605.20873v1 公告类型:新 摘要:规划是大型语言模型(LLMs)的一项基本能力,因为这类复杂任务要求模型将目标、约束、资源和长期后果协调成可执行且可验证的解决方案。然而,现有的规划基准通常将规划数据视为固定的实例集合,而非可控的生成目标。这限制了场景覆盖范围,将难度与表面代理而非结构根源挂钩,并且对可扩展生成、自动验证或面向规划的训练提供的支持有限。我们提出 PlanningBench,这是一个用于生成可扩展、多样且可验证的规划数据的框架,既可用于评估也可用于训练。PlanningBench 从真实的规划场景出发,将实际工作流程抽象成一个包含超过30种任务类型、子任务、约束族和难度因素的结构化分类体系。在此分类体系的指导下,一个约束驱动的合成流程会实例化自包含的规划问题,并具备自适应难度控制、质量过滤和实例级验证清单。这将规划数据构建从固定基准集收集转变为可控生成,同时保留真实的任务基础。我们使用 PlanningBench 评估开源和闭源的前沿大语言模型,发现当前模型在处理耦合约束时仍难以生成完整的解决方案。除评估外,基于经过验证的 PlanningBench 数据的强化学习还能提升模型在未见过的规划基准和更广泛的指令遵循任务上的表现。进一步分析表明,确定或明确指定的最优解能提供更清晰的奖励信号和更稳定的训练动态。总体而言,PlanningBench 为诊断和改进 LLM 中的通用规划能力提供了一个可控的规划数据来源。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:49

# PlanningBench:生成可扩展且可验证的规划数据,用于评估和训练大语言模型
来源:https://arxiv.org/abs/2605.20873
查看PDF(https://arxiv.org/pdf/2605.20873)

> 摘要:规划是大语言模型(LLM)的一项基础能力,因为此类复杂任务要求模型将目标、约束、资源和长期后果协调为可执行、可验证的解决方案。然而,现有的规划基准通常将规划数据视为固定的实例集合,而非可控制的生成目标。这限制了场景覆盖范围,将难度与表层代理指标而非结构性来源挂钩,并且对可扩展生成、自动验证或面向规划的训练支持有限。我们提出PlanningBench,一个用于生成可扩展、多样且可验证的规划数据(兼顾评估与训练)的框架。PlanningBench从真实规划场景出发,将实际工作流程抽象为结构化的分类体系,涵盖30多种任务类型、子任务、约束族和难度因素。在该分类体系指导下,一个基于约束驱动的合成流水线会实例化自包含的规划问题,并具备自适应难度控制、质量过滤和实例级验证检查表。这使规划数据构建从固定基准集合转向可控生成,同时保留真实的任务基础。我们使用PlanningBench评估开源和闭源前沿大语言模型,发现当前模型在耦合约束下仍难以生成完整解决方案。除了评估之外,基于已验证的PlanningBecnch数据进行强化学习,能够提升模型在未见过的规划基准以及更广泛的指令遵循任务上的表现。进一步的分析表明,确定性的或充分指定的最优解能提供更清晰的奖励信号和更稳定的训练动态。总体而言,PlanningBench为诊断和提升大语言模型的可泛化规划能力提供了可控的规划数据来源。

## 提交历史

来自:Zhao Wang \[查看邮箱(https://arxiv.org/show-email/ff3706ed/2605.20873)\]  
**\[v1\]** 2026年5月20日星期三 08:10:15 UTC(1,614 KB)

相似文章

基于大语言模型的零样本目标识别

arXiv cs.AI

本文首次系统性地对前沿大语言模型在经典PDDL规划基准上的零样本目标识别能力进行评估,发现部分模型能随证据积累而扩展性能,而另一些模型则始终依赖世界知识先验,不受观测累积影响。