latent-failures

#latent-failures

SIMMER: 使用世界模型对LLM可执行规划中的潜在故障进行基准测试

arXiv cs.CL ↗ · 6天前缓存

介绍了Simmer，这是一个基准测试，用于评估LLM生成的可执行计划中的潜在故障，使用了在厨房领域人工策划的符号世界模型。实验表明，前沿LLM最多只能生成17%的无错误计划，高达56%的计划包含潜在故障，而反事实前瞻模拟能显著减少故障。

0 人收藏 0 人点赞