基于迭代语言规划:参数化世界模型如何减少LLM代理中的幻觉传播

arXiv cs.AI 论文

摘要

本文介绍了基于迭代语言规划(GILP),一种将小型参数化世界模型与基于LLM的推理相结合的方法,以减少LLM代理中的幻觉传播。实验表明,在图结构规划基准上,GILP将幻觉状态率从0.176降低到0.035,并将任务成功率从0.668提高到0.838。

arXiv:2606.27806v1 公告类型:新 摘要:语言代理的世界模型有两种有用的形式。基于代理的世界模型调用LLM API并以语言灵活推理,但其错误表现为幻觉状态变化,难以用普通回归损失评分。参数化世界模型是训练好的转移预测器;其错误更容易用NodeMSE、delta准确率和有效性准确率等量来衡量,但作为独立规划器通常较弱。我们在四个图结构规划基准上比较这两类模型,并为基于代理的情况引入了可操作的幻觉度量。这一比较催生了基于迭代语言规划(GILP),它仅训练一个小型参数化骨干,并将其与基于API的代理推理相结合。骨干提供有效的动作、预测的状态增量、风险和价值;LLM起草一个动作和想象的增量;当两者不一致时,一致性门控要求修订。在实际的GPT-4o-mini调用中,GILP将幻觉状态率从0.176降低到0.035。在校准的模拟器消融实验中,它将成功率从0.668提高到0.838,同时仅增加了约22%的额外LLM调用。
查看原文
查看缓存全文

缓存时间: 2026/06/29 05:27

# 参数化世界模型如何减少LLM智能体中的幻觉传播 来源:https://arxiv.org/html/2606.27806

## 基于真实环境的迭代语言规划:参数化世界模型如何减少LLM智能体中的幻觉传播

Xinyuan Song¹ Zekun Cai²,³  
¹埃默里大学,美国佐治亚州亚特兰大  
²东京大学,日本东京  
³LocationMind,日本东京  
xinyuan\.song@emory\.edu, caizekun@csis\.u\-tokyo\.ac\.jp  

###### 摘要

语言智能体的世界模型有两种有用的形式。基于智能体的世界模型调用LLM API并以语言形式灵活推理,但其错误表现为难以用普通回归损失评分的幻觉状态变化。参数化世界模型是一个训练过的状态转移预测器;其错误更容易通过NodeMSE、delta准确率和有效性准确率等指标衡量,但作为独立规划器通常较弱。我们在四个图结构规划基准上比较了这两类模型,并为基于智能体的案例引入了操作性的幻觉指标。这一比较催生了**基于真实环境的迭代语言规划**(GILP),该方法仅训练一个小的参数化骨干网络,并将其与基于API的智能体推理相结合。骨干网络提供有效动作、预测的状态增量、风险和价值;LLM起草一个动作和想象的增量;一致性门控在两者不一致时要求修正。在真实的GPT-4o-mini调用中,GILP将幻觉状态率从0.176降低到0.035。在经校准的模拟器消融实验中,它将成功率从0.668提高到0.838,同时仅增加约22%的LLM调用。代码:https://github.com/Hik289/Environment-reduce-error.git。

## 1 引言

大语言模型(LLM)现在已成为自主智能体的常用骨干网络,无论是通过OpenAI的`chat.completions`(OpenAI,2023)、Anthropic的`messages`(Anthropic,2024),还是Google Gemini端点(Google DeepMind,2023)。在思维链和ReAct风格的规划中(Wei等人,2022;Yao等人,2023b;Hao等人,2023;Shinn等人,2023;Yao等人,2023a;Wang等人,2023a),智能体不仅选择动作,还充当**基于智能体的世界模型**:它写下自己认为的下一个状态,然后在后续决策中使用该文本。这种方法很有用,因为目标、工具调用和观察都处于同一媒介中,并且该策略在许多交互式基准上表现良好(Shridhar等人,2021;Yao等人,2022;Liu等人,2024;Zhou等人,2024a;Jimenez等人,2024)。

难点在于,并非所有世界模型错误看起来都一样。参数化世界模型有明确的预测目标,因此可以直接计算其误差:节点状态的NodeMSE、变化节点的delta准确率、动作的有效性准确率等。而基于智能体的世界模型则不同。其状态转移是由API模型生成的一段语言和结构化JSON。最严重的错误是语义幻觉:未发生的完成、被忽略的依赖关系、或者写入历史并稍后被复用的实体状态。这些错误无法用单一的MSE很好地描述。因此,我们为它们定义了操作性指标:幻觉状态率、传播深度和长时域误差增长。

这引出了本文的核心比较。参数化世界模型具有可测量且通常更低的转移误差,但它们是薄弱的语义规划器。基于智能体的世界模型推理良好,但其幻觉更难测量,并在长时域中累积。在我们的实验中,智能体基线的单步错误概率在第十步时攀升至0.393,其幻觉状态率达到0.205,且一个幻觉原子平均持续2.45步。一个自然的问题是,是否可以利用少量训练的参数量化来控制基于API的智能体的幻觉误差,同时又不放弃其推理能力。

#### 动机示例。考虑一个包含任务{1,...,6}的六步工作流。在第三步,智能体想象的状态转移声称“任务3:已完成”,尽管环境仍将其保持为“待处理”(预条件在JSON序列化中被遗漏)。模型继续根据损坏的状态进行规划,发出`execute(task_5)`,而该动作依赖于任务3,环境将其拒绝为无效,智能体在情节超时前又补了三个幻觉状态原子。一个错误标记产生了三个无效动作。我们在经校准的模拟器和直接GPT-4o-mini API调用中都观察到了这种级联效应。JSON模式强制(OpenAI,2023)有助于**语法**,但本身并不能阻止智能体相信一个错误的状态。

#### 两种世界模型。我们明确研究了两方面。基于智能体的世界模型是LLM规划器:它调用API,对序列化任务进行推理,选择动作,并写下想象的下一个状态增量。参数化世界模型是一个小型训练网络(Ha and Schmidhuber,2018;Hafner等人,2020;Sutton,1991;Moerland等人,2023),用于预测动作有效性、下一状态增量、完成度、价值和风险。后者具有普通的监督误差,包括NodeMSE和delta准确率;前者需要幻觉指标,因为其错误存在于生成的状态声称中。因此,这两个模型以互补的方式失败。

#### 我们的方法:GILP。我们提出**基于真实环境的迭代语言规划**(GILP)来结合它们。GILP仅训练一个小型参数化骨干网络,然后保留API智能体作为推理引擎。每一步,骨干网络对候选动作进行评分,并序列化一个紧凑的**骨架**:有效性、预测的增量、风险、受影响实体和价值。LLM起草一个动作和一个以结构化JSON形式想象的下一个状态增量。Jaccard一致性门控将智能体的增量与参数化预测进行比较;当一致性低于 τ_low=0.30时,智能体收到一条简短的修正消息,指出不一致的原子。目标不是让参数化模型解决任务,而是利用其可测量的转移信号来减少基于智能体的世界模型的幻觉误差。

#### 贡献。
- • 我们将长时域规划框架为两种世界模型之间的比较:一种具有灵活API推理的基于智能体的模型,另一种具有可测量监督转移误差的参数化模型。
- • 我们将幻觉传播定义为世界模型误差的基于智能体的类比,并使用HSR、PD和长时域误差概率代理对其进行测量。
- • 我们引入了GILP,该方法训练一个小型参数化骨干网络,并用它来修正基于API的推理智能体的幻觉状态增量。
- • 我们证明GILP同时提高了任务成功率和状态忠实度:模拟器成功率从0.668提升至0.838,真实GPT-4o-mini的HSR下降了80%,长时域成功率从0.471提升至0.758。
- • 我们发布了提示套件(附录A)、模拟器、基准测试和代码工件,以便进行可重复的后续工作。

## 2 相关工作

#### LLM作为语言世界模型。越来越多的研究工作将LLM智能体视为**隐式**世界模型,在思维链规划过程中以自然语言生成下一状态预测。ReAct(Yao等人,2023b)交织推理和动作,使每个思维预测下游结果;Reflexion(Shinn等人,2023)添加口头自我批评,更新智能体对过去预测的信念;Plan-and-Solve(Wang等人,2023a)强制在执之前承诺一个完整的想象轨迹;思维树和图思维树(Yao等人,2023a;Besta等人,2024)将展开分支成搜索树;LATS(Liu等人,2023)通过语言智能体树搜索统一推理、动作和规划;RAP(Hao等人,2023)使用LLM**作为**MCTS内部的转移模型。同样的范式推动了基准和具身部署(Shridhar等人,2021;Yao等人,2022;Qin等人,2024;Wang等人,2024a;Lin等人,2023;Liu等人,2024;Zhou等人,2024a;Jimenez等人,2024)。Somers等人(2024)为这些系统提供了统一的认知架构视角。关键的是,所有这些方法都**依赖LLM自身的生成**来建模世界,因此想象状态中的错误会直接注入到所有后续步骤的上下文中。

#### LLM API生态系统。三种主要的API范式主导着智能体部署。**OpenAI API**(OpenAI,2023)(gpt-4o-mini,gpt-4o,o1-mini)提供`chat.completions`,带有`response_format={"type":"json_object"}`选项、函数调用和token级logprobs;2025年gpt-4o-mini的列表价格为每百万输入/输出token $0.15/$0.60。**Anthropic API**(Anthropic,2024)(claude-3-haiku至claude-opus)提供`messages`端点,支持工具使用、扩展思维和流式输出。**Google Gemini API**(Google DeepMind,2023)(gemini-1.5-flash,gemini-1.5-pro)提供`response_mime_type="application/json"`,Flash版每百万token价格为$0.075/$0.30。通过vLLM或Ollama的**开源服务**在OpenAI兼容API后运行Llama-3、Mistral或Qwen,边际token成本为零。这三种范式在JSON模式可靠性、延迟和工具使用习惯上有所不同——所有这些都影响智能体生成可解析动作的频率以及其想象状态能否从响应中提取。指令微调(Ouyang等人,2022)和智能体专业化(Zeng等人,2023;Chen等人,2023;Wang等人,2024b)逐模型改变了这种可靠性曲线,但没有通用的基础机制跨越所有API。GILP的一致性门控与API无关。

#### 参数化世界模型。参数化世界模型从数据中预测环境转移,自Dyna(Sutton,1991)以来一直是基于模型的强化学习的核心。现代变体包括潜在想象架构(Ha and Schmidhuber,2018;Hafner等人,2020,2021,2023)、概率集成(Chua等人,2018)、序列建模的离线轨迹(Janner等人,2021)以及结合搜索的学习模型(Schrittwieser等人,2020)。Moerland等人(2023)调查了更广泛的基于模型的RL领域。由于我们的基准是图结构的,我们实例化了图神经网络骨干:GCN(Kipf and Welling,2017)、GraphSAGE(Hamilton等人,2017)、MPNN(Gilmer等人,2017)、GAT(Veličković等人,2018)、GIN(Xu等人,2019)、R-GCN(Schlichtkrull等人,2018)和图Transformer GPS(Rampášek等人,2022)。这些模型廉价且稳定,但它们的输出来自固定头部而非开放式语言;它们无法组合推理新目标,系统性地在需要语义理解的任务上表现不佳(0.565 SR vs. 最佳智能体基线的0.668)。

#### 幻觉、忠实度和自我修正。单轮幻觉在NLG中已有充分记载(Ji等人,2023;Maynez等人,2020;Zhang等人,2023;Huang等人,2023;Rawte等人,2023)。忠实度方法包括忠实思维链推理(Lyu等人,2023)、自一致性采样(Wang等人,2023b)、验证链(Dhuliawala等人,2023)、外部知识增强(Peng等人,2023)和工具交互式批评(Gou等人,2024)。Pan等人(2024)调查了LLM自动修正策略的多样化景观。过程奖励模型(Lightman等人,2023)使用学习到的验证器对中间推理步骤进行评分。所有这些文献都将幻觉视为一个**单步**检测或修正问题。我们则关注**多步传播**:想象状态JSON片段中的一个幻觉原子会影响LLM在同一轨迹中发出的每个后续token。我们的HSR、PD和EES指标以及长时域任意误差代理 P̂_any(H) 量化了这一时域分辨现象。GILP的一致性门控将参数化骨干的结构预测与LLM自身的增量估计相结合,仅在两者不一致时运行修正——这是一种有针对性的、计算高效的自我修正形式。

#### 混合与基于真实环境的规划。另一条互补的工作线将LLM与符号或学习的方法配对。

相似文章

HalluWorld:基于参考世界模型的可控幻觉基准

arXiv cs.CL

HalluWorld 是一个可控基准框架,通过显式的参考世界模型在网格世界、国际象棋和实际终端任务等合成环境中评估大型语言模型中的幻觉。它可以细粒度分析各种故障模式,例如感知幻觉、多步状态追踪和因果模拟,揭示出前沿模型在处理扩展思维无法解决的复杂推理时仍然存在困难。