标签
介绍了Simmer,这是一个基准测试,用于评估LLM生成的可执行计划中的潜在故障,使用了在厨房领域人工策划的符号世界模型。实验表明,前沿LLM最多只能生成17%的无错误计划,高达56%的计划包含潜在故障,而反事实前瞻模拟能显著减少故障。