标签
本文首次系统性地对前沿大语言模型在经典PDDL规划基准上的零样本目标识别能力进行评估,发现部分模型能随证据积累而扩展性能,而另一些模型则始终依赖世界知识先验,不受观测累积影响。
本文提出了重复欺骗路径规划(RDPP)以及一种名为欺骗元规划(DeMP)的新框架,使智能体能够在面对会随时间学习并适应的观察者的情况下维持欺骗能力。