标签
本文提出UP-NRPA,一种在线框架,将用户画像与基于大语言模型的嵌套展开策略自适应相结合,无需离线训练即可动态定制对话策略,在多个对话任务上实现了100%的成功率。
介绍了Simmer,这是一个基准测试,用于评估LLM生成的可执行计划中的潜在故障,使用了在厨房领域人工策划的符号世界模型。实验表明,前沿LLM最多只能生成17%的无错误计划,高达56%的计划包含潜在故障,而反事实前瞻模拟能显著减少故障。