标签
PlanningBench 是一个用于生成可扩展、多样且可验证的规划数据的框架,以评估和训练大型语言模型。该框架采用约束驱动的合成流程,具备自适应难度控制和质量过滤功能。实验表明,前沿大语言模型在处理耦合约束时仍存在困难,而基于 PlanningBench 数据的强化学习能够提升模型在未见过的规划任务上的表现。