SIMMER: 使用世界模型对LLM可执行规划中的潜在故障进行基准测试
摘要
介绍了Simmer,这是一个基准测试,用于评估LLM生成的可执行计划中的潜在故障,使用了在厨房领域人工策划的符号世界模型。实验表明,前沿LLM最多只能生成17%的无错误计划,高达56%的计划包含潜在故障,而反事实前瞻模拟能显著减少故障。
arXiv:2606.14574v1 Announce Type: new
Abstract: 大型语言模型(LLM)越来越多地被部署为家庭环境中自主代理的规划器。现有基准测试虽然评估LLM生成的计划是否成功执行,却忽略了一种关键类型的故障:潜在故障。与立即故障不同,立即故障在执行时触发即时反馈并允许及时纠正,而潜在故障不会立即停止计划执行,而是悄无声息地损害目标达成。在严重情况下,它们会造成不可逆的损害。为填补这一空白,我们引入了SIMMER,一个通过基于厨房领域的人工策划符号世界模型来评估LLM规划中潜在故障的基准测试。SIMMER定义了一个世界模型,包含77个动作、262个独特对象以及约46,800种可能的交互,这些交互来源于真实世界的烹饪脚本,语义上真实。然后,它利用一个状态机执行器,根据世界模型验证计划,并检测即时前提条件违反、潜在危险和不可逆故障。在六个LLM上的实验表明,即使前沿模型最多也只能生成17%的无错误计划。此外,高达56%的计划包含潜在故障,其中大多数导致不可逆后果。我们进一步证明,通过反事实前瞻模拟进行显式状态推理可以将潜在故障减少多达72%,不可逆情况减少多达75%,这为构建更鲁棒的LLM规划器指明了一个有希望的方向。
查看缓存全文
缓存时间: 2026/06/15 08:58
# Simmer:基于世界模型的LLM可执行规划中潜在故障基准测试
来源:https://arxiv.org/html/2606.14574
Xiaoxin Lu Ranran Haoran Zhang Rui Zhang
宾夕法尼亚州立大学,州学院,宾夕法尼亚州,美国
\{xzl5514, haoranz6, rmz5227\}@psu\.edu
###### 摘要
大型语言模型(LLM)越来越多地被部署为家庭环境中自主智能体的规划器。现有基准测试虽然评估LLM生成的计划是否能成功执行,但忽略了一种关键故障类型:潜在故障。与即时故障(会在执行时触发即时反馈并及时纠正)不同,潜在故障不会立即阻止计划执行,而是悄无声息地损害目标达成。在严重情况下,它们会造成不可逆的损害。为了填补这一空白,我们提出了Simmer,一个通过基于人类策划的、以厨房领域为基础的符号化世界模型来评估LLM规划中潜在故障的基准测试。Simmer定义了一个世界模型,包含77个动作、262个独特对象以及大约46,800种语义上真实的交互,这些交互源自真实的烹饪脚本。然后,它利用一个状态机执行器,根据世界模型验证计划,并检测即时前置条件违反、潜在危险和不可逆故障。在六个LLM上的实验表明,即使是最先进的模型,其无错误计划的比例也最多达到17%。此外,高达56%的计划包含潜在故障,其中大多数会导致不可逆的后果。我们进一步证明,通过反事实预见模拟进行显式状态推理,可以将潜在故障减少高达72%,不可逆情况减少高达75%,这为开发更鲁棒的LLM规划器指明了一个有前景的方向。
## 1 引言
大型语言模型(LLM)越来越多地被部署为可执行任务规划的自主智能体,这类智能体必须生成一系列动作,以在模拟或物理环境中达成目标(Li et al., 2025 (https://arxiv.org/html/2606.14574#bib.bib38);Zhai et al., 2025 (https://arxiv.org/html/2606.14574#bib.bib4))。随着智能体现在能够感知环境并做出决策,它们在家庭辅助方面的应用得到了广泛探索(Luo et al., 2025 (https://arxiv.org/html/2606.14574#bib.bib21))。随着这些智能体被部署在日益复杂和安全关键的场景中,确保其规划能力的可靠性变得至关重要(Ferrag et al., 2026 (https://arxiv.org/html/2606.14574#bib.bib3))。然而,评估LLM的规划能力并检测规划故障仍然具有挑战性。现有方法可分为两类,但均存在显著局限性。第一类采用具有正式状态追踪的虚拟环境,例如TextWorld (Côté et al., 2018 (https://arxiv.org/html/2606.14574#bib.bib26))、ALFWorld (Shridhar et al., 2020 (https://arxiv.org/html/2606.14574#bib.bib27))和VirtualHome (Puig et al., 2018 (https://arxiv.org/html/2606.14574#bib.bib28))。虽然这些环境能够实现精确验证,但它们往往过于简化。例如,TextWorld仅定义了10种对象类型和26条动作规则。这类环境通常无法捕捉真实规划场景的复杂性和细微差别。因此,它们无法建模跨动作静默积累的隐式状态变化,例如污染、温度传播或化学转化。第二类通过测量生成计划与参考计划之间的语义相似性来评估非结构化的自然语言计划(Valmeekam et al., 2023 (https://arxiv.org/html/2606.14574#bib.bib6);Lu et al., 2025 (https://arxiv.org/html/2606.14574#bib.bib5))。尽管这种方法更灵活,但这些指标仅在表层运行:一个看似每个动作都合理的计划,可能仍包含文本中不可见、只有通过状态依赖才能显现的错误。这两种方法都无法检测满足所有显式前置条件,但通过隐式状态变化悄无声息传播的潜在故障。
参见图说明
图1:烹饪场景中潜在且不可逆的故障演示。砧板在步骤1中被污染,并在步骤3中被再次使用,将细菌转移到蔬菜上。故障悄无声息地传播,直到不安全的菜肴被端上餐桌(步骤5)。此外,一旦污染发生,后续任何动作都无法撤销。
我们认为,检测此类潜在故障是当前评估范式中的一个关键空白。我们从安全工程中借用了“潜在故障”这一术语,指的是那些在与其他因素结合导致系统故障之前一直处于休眠状态的错误(Reason, 1990 (https://arxiv.org/html/2606.14574#bib.bib8))。与会阻止后续动作的即时故障(例如,试图切一块尚未从冰箱取出的生菜)不同,潜在故障是其后果只在几个看似成功的步骤之后才显现的错误。此外,一些潜在故障会造成不可逆的后果,导致无法恢复世界模型的状态。图1 (https://arxiv.org/html/2606.14574#S1.F1) 展示了烹饪场景中的此类故障:机器人智能体在一块砧板上切生鸡肉,将其煮熟,然后再次使用同一块未清洗的砧板准备沙拉用的蔬菜。每个单独动作都成功执行,没有违反前置条件,但整个计划从根本上存在缺陷。交叉污染通过隐式状态传播悄然发生。更关键的是,一旦蔬菜被污染,后续任何动作都无法逆转细菌的转移。因此,这也是不可逆的。此类故障不仅需要追踪动作是否可以被执行,还需要根据领域中隐含的约束来判断是否应该执行这些动作。现有的基准测试主要依赖即时动作反馈或表层计划相似性,难以捕捉这些细微但后果严重的错误。由于基于LLM的智能体被部署在高风险领域,这种评估空白带来了重大风险。
为了解决这些局限性,我们提出了Simmer,一个通过针对符号化世界模型执行计划来评估LLM规划能力的基准测试。Simmer包含三个集成组件:(1) 一个符号化世界模型,包含77个动作和262个对象,基于从wikiHow和Instructables收集的真实烹饪脚本,支持约46,800种语义上真实的交互;(2) 一个故障分类体系,区分即时故障和潜在故障;(3) 一个状态机执行器,逐步模拟计划执行,追踪细粒度状态,并检测传统指标无法发现的故障。我们在涵盖前沿模型和开源模型的六个LLM上进行的实验揭示了普遍存在的规划故障。即使性能最好的模型,在不到20%的任务中产生无错误计划,29–56%的计划包含潜在故障。高故障率表明,先前的评估可能严重高估了LLM的规划能力,因为它们只关注表层正确性,而忽略了通过世界状态悄然传播的错误。我们进一步提出了反事实预见模拟,这是一种提示策略,强制在每个动作之前进行显式状态推理。这种方法在前沿模型上将潜在故障减少了高达72%,表明将状态追踪外化可以显著提高LLM规划的可靠性。
我们的贡献如下:
- • 我们提出了Simmer,一个通过针对符号化世界模型执行计划来评估LLM规划能力的基准测试。它包括一个包含77个动作和262个对象的符号化厨房世界模型、一个区分即时故障和潜在故障的故障分类体系,以及一个能够检测传统指标无法发现的故障的状态机执行器。
- • 我们对覆盖前沿模型和开源模型的六个LLM进行了全面实验,首次系统性地分析了LLM规划中的即时故障和潜在故障模式。我们进一步表明,通过显式状态推理,反事实预见模拟能显著减少这些故障。
## 2 相关工作
#### LLM规划。
大型语言模型能够为各种任务生成合理的动作序列 (Singh et al., 2022 (https://arxiv.org/html/2606.14574#bib.bib15); Liu et al., 2023 (https://arxiv.org/html/2606.14574#bib.bib16))。Huang等人 (2022a (https://arxiv.org/html/2606.14574#bib.bib33)) 表明,LLM通过从预训练中提取可操作知识,可以作为零样本规划器。SayCan (Ahn et al., 2022 (https://arxiv.org/html/2606.14574#bib.bib34)) 使用价值函数将LLM计划锚定到机器人可操作能力上,而Code as Policies (Liang et al., 2023 (https://arxiv.org/html/2606.14574#bib.bib36)) 利用代码生成来产生可执行的机器人策略。最近的工作表明,具身LLM能够通过自适应重新规划在不可预测的环境中完成长时域任务 (Mon-Williams et al., 2025 (https://arxiv.org/html/2606.14574#bib.bib23))。一个相关的工作方向是探索利用LLM作为规划的世界模型 (Feng et al., 2025 (https://arxiv.org/html/2606.14574#bib.bib17))。Hao等人 (2023 (https://arxiv.org/html/2606.14574#bib.bib7)) 提出了通过世界模型进行规划推理。Guan等人 (2023 (https://arxiv.org/html/2606.14574#bib.bib9)) 从LLM知识构建世界模型以指导任务规划。现有方法通常遵循“规划-执行-重新规划”的范式:智能体生成计划,执行它,并在失败时重新规划 (Huang et al., 2022b (https://arxiv.org/html/2606.14574#bib.bib20); Bhat et al., 2025 (https://arxiv.org/html/2606.14574#bib.bib18))。该范式假设故障将在执行时通过前置条件违反被检测到,从而触发重新规划 (Yuan et al., 2026 (https://arxiv.org/html/2606.14574#bib.bib19))。然而,对于满足所有前置条件的潜在故障以及无法通过重新规划纠正的不可逆情况,这一假设不成立。我们的工作通过显式建模和检测此类故障来填补这一空白。
#### 人工智能的虚拟环境。
人工智能的虚拟环境已经从基于文本的游戏 (Côté et al., 2018 (https://arxiv.org/html/2606.14574#bib.bib26)) 演变为视觉化的模拟器 (Savva et al., 2019 (https://arxiv.org/html/2606.14574#bib.bib11); Kolve et al., 2022 (https://arxiv.org/html/2606.14574#bib.bib10); Yang et al., 2025 (https://arxiv.org/html/2606.14574#bib.bib37))。ALFWorld (Shridhar et al., 2020 (https://arxiv.org/html/2606.14574#bib.bib27)) 将基于文本的交互与视觉观察对齐。VirtualHome (Puig et al., 2018 (https://arxiv.org/html/2606.14574#bib.bib28)) 通过具有对象属性和状态的程序模拟家庭活动。BEHAVIOR (Srivastava et al., 2021 (https://arxiv.org/html/2606.14574#bib.bib29)) 进一步扩展了这一方向,使用谓词逻辑定义了1,000项活动。这些环境通常使用任务成功率和目标条件成功率来评估计划,后者通过将任务分解为子目标来衡量部分完成度 (Shridhar et al., 2021 (https://arxiv.org/html/2606.14574#bib.bib30))。最近的工作,如具身智能体接口 (Li et al., 2025 (https://arxiv.org/html/2606.14574#bib.bib38)),引入了更细粒度的错误分类,包括缺失目标、错误的时间顺序等。尽管取得了这些进展,现有指标共享一个根本性的局限性。它们主要关注智能体是否能完成任务,而不是执行过程中是否引入了安全违规 (Choi et al., 2024 (https://arxiv.org/html/2606.14574#bib.bib12); Ma et al., 2024 (https://arxiv.org/html/2606.14574#bib.bib13); Kapoor et al., 2024 (https://arxiv.org/html/2606.14574#bib.bib14))。状态表示仅限于诸如OPEN/CLOSED和对象位置等谓词,因此无法捕捉导致潜在故障的污染或化学转化。结果,智能体可能达到完美的成功率,同时引入仅在任务完成后才显现的违规。
## 3 Simmer
参见图说明
图2:Simmer概览。该基准测试包含一个面向厨房领域的符号化世界模型、一个故障分类体系,以及一个状态机执行器。执行器逐步模拟LLM生成的计划,并生成结构化的故障报告。
Simmer是一个通过针对符号化世界模型执行计划来评估LLM规划能力的基准测试。如图2所示,它包含三个组件:
- • 一个符号化世界模型,定义厨房领域中的动作、对象及其交互(第3.1节);
- • 一个故障分类体系,区分即时故障和潜在故障(第3.2节);
- • 一个状态机计划执行器,根据世界模型验证计划,并检测传统指标无法发现的故障(第3.3节)。
### 3.1 世界模型
| 动作:grab |
|----------|
| 参数:object |
| 前置条件:agent\_hands\_empty, object\_grabbable |
| 效果:agent\_holding\_object |
| 对象:chicken\_breast |
|----------------------|
| 属性:cuttable, grabbable, protein |
| 状态:raw, whole |
| 位置:fridge |
表1:来自Simmer世界模型的示例动作和对象定义。
#### 定义。
我们的世界模型由动作和对象组成。动作和对象的定义均遵循PDDL范式。每个动作定义为一个元组 ⟨参数, 前置条件, 效果⟩,其中参数指定有类型的参数,前置条件定义执行所需的条件,效果描述导致的状态变化。每个对象定义为一个元组 ⟨属性, 状态, 位置⟩,其中属性是不可变的可操作能力(例如,grabbable, heat\_source),状态是可变的属性(例如,raw/cooked),位置指定初始放置位置。表1显示了来自我们世界模型的一个动作和一个对象的定义。更多代表性的定义示例见附录A.2。
#### 计划格式。
遵循VirtualHome (Puig et al., 2018 (https://arxiv.org/html/2606.14574#bib.bib28)),计划是格式为 [ACTION] (object\_id) 的动作序列,其中ACTION是动作名称,每个 (object\_id) 对指定一个参数。动作可以接受不同数量的参数,例如,[grab] (1)(一个参数)或 [put\_on] (1) (1)(两个参数)。
#### 构建流程。
我们从wikiHow和Instructables收集了烹饪脚本,涵盖了从简单食谱到复杂多阶段准备的多样化菜肴。对于每个脚本,我们使用GPT-5.4提取动作(描述操作的动词)和对象(食材、工具、器具)。我们进行了人工验证以纠正提取错误。原始提取结果由于词汇变异而包含大量冗余。因此,我们首先通过基于规则的匹配对格式变体(例如,switchon → switch\_on)进行标准化,然后手动合并语义上的近似项(例如,place\_on → put\_on)。接下来,我们筛选出出现次数少于三次的低频项,并移除那些已有现成替代品的项。在确立了规范化的动作和对象后,我们按照受VirtualHome启发但针对厨房特定可操作能力进行了扩展的模式,注释了正式定义。两个完全注释的脚本作为GPT-5.4的少样本示例,用于生成所有项的初始注释。最后,相似文章
EnvSimBench:用于评估和改善基于大语言模型的环境模拟的基准
本文介绍了 EnvSimBench,这是一个用于评估大语言模型在智能体训练中模拟环境能力的基准。它指出了当前大语言模型中存在的“状态变化悬崖”问题,并提出了一种约束驱动的流水线以减少幻觉和降低成本。
当工具失灵:LLM智能体动态重新规划与异常恢复的基准测试
ToolMaze基准测试评估了LLM智能体处理真实世界工具故障的能力,揭示了隐式语义故障导致的性能下降最为显著,而动态重新规划仍是模型扩展或提示工程无法解决的关键瓶颈。
大语言模型能否用 TLA+ 建模实际系统?
Specula 团队的研究人员创建了 SysMoBench 基准测试,用于评估大语言模型能否准确建模实际计算系统的 TLA+ 规范,还是仅仅照本宣科地背诵教材内容。该基准测试涵盖四个阶段共 11 个系统,揭示了当前大语言模型在准确建模系统实现与参考论文方面的系统性差距。
LinAlg-Bench:揭示大语言模型数学推理中结构性失败模式的诊断性基准
介绍了LinAlg-Bench,这是一个诊断性基准,用于评估10个前沿大语言模型在矩阵维度上的结构化线性代数计算,揭示了大语言模型的数学失败在结构上受到约束,并在4x4规模下从执行错误过渡到计算放弃。
当规划正确执行却失败时:论基于LLM的多智能体系统的认知校准
本文识别了基于LLM的多智能体系统中的一种失败模式,即由于智能体错误判断自身知识(认知校准不当)而导致规划失败,并提出EPC-AW工作流,通过信息一致性和认知状态细化将系统级成功率提升9.75%。