latent-failures

标签

Cards List
#latent-failures

SIMMER: 使用世界模型对LLM可执行规划中的潜在故障进行基准测试

arXiv cs.CL · 6天前 缓存

介绍了Simmer,这是一个基准测试,用于评估LLM生成的可执行计划中的潜在故障,使用了在厨房领域人工策划的符号世界模型。实验表明,前沿LLM最多只能生成17%的无错误计划,高达56%的计划包含潜在故障,而反事实前瞻模拟能显著减少故障。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈