EnvSimBench:用于评估和改善基于大语言模型的环境模拟的基准
摘要
本文介绍了 EnvSimBench,这是一个用于评估大语言模型在智能体训练中模拟环境能力的基准。它指出了当前大语言模型中存在的“状态变化悬崖”问题,并提出了一种约束驱动的流水线以减少幻觉和降低成本。
arXiv:2605.07247v1 公告类型:新论文
摘要:可扩展的人工智能智能体训练依赖于能够忠实模拟智能体行动后果的交互环境。人工构建的环境成本高昂、扩展性差,且在多样性方面存在根本限制。一个有前景的方向是用基于大语言模型(LLM)模拟的环境来替代人工构建的环境。然而,这一范式依赖于一个未经检验的核心假设:大语言模型可以准确地模拟环境反馈。在实践中,基于大语言模型模拟的环境存在幻觉、逻辑不一致和静默状态漂移失败等问题,这会破坏智能体的奖励信号,并加剧该范式旨在消除的构建成本。为了弥补这一差距,我们提出了 EnvSimBench,具有以下四项贡献:1) 我们首次对环境模拟能力(EnvSim Ability)进行了正式定义和量化研究目标的实施。2) 我们构建了 EnvSimBench,这是一个严谨的基准,涵盖167种不同环境中的400个样本,配备了可验证的标签和沿三个轴线的细粒度难度分层。3) 系统评估表明,所有最先进的语言模型都存在普遍的状态变化悬崖问题:当环境状态保持不变时,它们在任务中几乎能达到完美准确率;但当需要同时更新多个状态时,它们却会遭受灾难性失败。这一发现揭示了 EnvSim 能力是一个至关重要但尚未得到充分解决的能力差距。4) 我们设计了一种约束驱动的模拟流水线,大幅减少了幻觉,将环境合成产量提高了 6.8%,并将成本降低了 90% 以上。总体而言,EnvSimBench 既是一个诊断框架,也是一个实用的优化路径,用于实现可靠的基于大语言模型的环境模拟,为可扩展的智能体训练奠定了基础。代码和数据可在 https://github.com/cookieApril/EnvSimBench 获取。
查看缓存全文
缓存时间: 2026/05/11 07:15
# EnvSimBench:用于评估和改进基于LLM的环境模拟的基准 来源:https://arxiv.org/html/2605.07247 刘毅 辉庭峰 张伟 孙立 北京邮电大学 [email protected] 苏宁新 香港科技大学 & 王建 重庆大学 苏森 北京邮电大学 ###### 摘要 可扩展的人工智能代理训练依赖于能够忠实模拟代理行动后果的交互环境。手工构建的环境造价高昂、扩展性脆弱,且在多样性上存在根本局限。一个有前景的方向是用基于大语言模型(LLM)的模拟环境取代手工构建的环境。然而,这一范式依赖于一个未经检验的核心假设:LLM能够准确地模拟环境反馈。在实践中,基于LLM的模拟环境遭受幻觉、逻辑不一致和静默状态漂移等问题,这些失败会破坏代理的奖励信号,并累积该范式旨在消除的构建成本。为了弥补这一差距,我们提出了EnvSimBench,其贡献如下:(1)我们首次对环境模拟能力(EnvSim Ability)进行了正式定义和具体化,将其作为一个可量化的研究目标。(2)我们构建了EnvSimBench,这是一个严格的基准,涵盖167个多样化环境中的400个样本,配备可验证的标签,并在三个维度上进行细粒度的难度分层。(3)系统评估揭示了一个普遍存在的“状态变化悬崖”现象:所有最先进语言模型在环境状态不变的任务上都能达到近乎完美的准确率,但当需要同时更新多个状态时却会灾难性地失败。这一发现暴露了EnvSim Ability作为一个关键但尚未得到充分解决的能力差距。(4)我们设计了一种约束驱动的模拟管道,显著减少了幻觉,将环境合成产率提高了6.8%,并将成本降低了90%以上。总体而言,EnvSimBench既是一个诊断框架,也是可靠基于LLM的环境模拟的实用优化路径,为可扩展的代理训练奠定了坚实基础。代码和数据可用地址:https://github.com/cookieApril/EnvSimBench ## 1 引言 大语言模型(LLMs)越来越多地被要求在多样化的现实场景中充当代理[Luo et al. (2025)](https://arxiv.org/html/2605.07247#bib.bib10); [Yao et al. (2025)](https://arxiv.org/html/2605.07247#bib.bib9); [Qian et al. (2025)](https://arxiv.org/html/2605.07247#bib.bib8)。近期的研究努力[Patilet al. (2024)](https://arxiv.org/html/2605.07247#bib.bib25); [Yao et al. (2025)](https://arxiv.org/html/2605.07247#bib.bib9); [Luet al. (2025)](https://arxiv.org/html/2605.07247#bib.bib3)构建了具有状态保持能力、可交互工具的沙盒环境,提供了更好的可控性和稳定性。大规模训练自主代理需要具有丰富多样性、高模拟保真度和低部署成本的交互环境[Huanget al. (2025)](https://arxiv.org/html/2605.07247#bib.bib37); [DeepSeek-AIet al. (2025)](https://arxiv.org/html/2605.07247#bib.bib36); [Frogeret al. (2025)](https://arxiv.org/html/2605.07247#bib.bib35)。然而,手动设计的环境存在 prohibitive 的构建成本、较差的扩展性以及场景覆盖范围固有的局限性,使其不适合大规模的代理训练。 一个引人注目的近期方向通过用基于LLM的模拟对手取代手工打造的、可执行的环境[Jimenezet al. (2024a)](https://arxiv.org/html/2605.07247#bib.bib4); [Zhouet al. (2024a)](https://arxiv.org/html/2605.07247#bib.bib5); [Shridharet al. (2021)](https://arxiv.org/html/2605.07247#bib.bib34)来解决这一挑战,其中语言模型为每个代理行动生成反馈[Liet al. (2025)](https://arxiv.org/html/2605.07247#bib.bib1); [Songet al. (2026)](https://arxiv.org/html/2605.07247#bib.bib7)。这一范式极大地降低了环境创建的门槛,并承诺跨领域无缝扩展。然而,它依赖于一个基础假设,这一假设却意外地缺乏审查:LLM能够以足够的保真度准确模拟环境反馈,从而可以作为可信的训练基底。如果这一假设失效,在幻觉环境中训练的代理将对受损的奖励信号进行优化,合成管道将产生累积的失败成本,侵蚀该范式所承诺的成本优势,但模拟保真度从未得到系统性的表征。 在实践中,当模型尝试充当模拟器时,其性能受到特定脆弱性的影响。这一困难背后有三种具体的故障模式:幻觉[Jiet al., 2023](https://arxiv.org/html/2605.07247#bib.bib11); [Patilet al., 2023](https://arxiv.org/html/2605.07247#bib.bib29); [Zhanget al., 2025](https://arxiv.org/html/2605.07247#bib.bib12),即模型伪造看似合理但不正确的状态转换;逻辑不一致[Ruanet al., 2024](https://arxiv.org/html/2605.07247#bib.bib26); [Elazaret al., 2021](https://arxiv.org/html/2605.07247#bib.bib24),即单个响应内的字段间约束被违反;以及状态漂移[Luet al., 2025](https://arxiv.org/html/2605.07247#bib.bib3); [Prabhakaret al., 2025](https://arxiv.org/html/2605.07247#bib.bib23); [Yaoet al., 2025](https://arxiv.org/html/2605.07247#bib.bib9),即缺乏持久记忆导致早期的状态变化静默丢失。这些故障并非偶然的工程缺陷,而是反映了语言模型的生成特性与可执行环境的确定性、组合逻辑之间的根本张力。如果没有一个框架来精确测量这些故障,它们对从业者来说将是不可见的,对研究人员来说也是无法解决的。 为了填补这一差距并为研究模拟保真度建立严谨的基础,我们引入了**环境模拟能力**(EnvSim Ability)的概念,用以表示模型在给定当前环境状态和行动实现逻辑的情况下,准确预测由代理行动引起的状态转换和观察反馈的能力。如果没有精确、可操作化的定义,系统评估和原则性改进这一能力都是不可能的。 为了解决这三种故障模式并使EnvSim Ability具体可测,我们构建了**EnvSimBench**。EnvSimBench将本质上部分可观察的模拟问题转化为完全可观察、独立可验证的问题。标准LLM模拟器在部分可观察马尔可夫决策过程(POMDP)[Oliehoek and Amato (2016)](https://arxiv.org/html/2605.07247#bib.bib31)下运行:模型必须仅从对话历史中推断当前环境状态,无法明确访问真实状态或环境的转换逻辑。我们的核心见解是,将模拟重构为完全可观察的马尔可夫决策过程(MDP):向模型提供显式的初始状态和行动的作为输入,并要求其预测结果状态和观察作为输出,可以同时解决这三个问题。这种重构是EnvSimBench的架构基础。 > **图1:EnvSimBench概览。** > **模块A:** EnvScaler[Songet al. (2026)](https://arxiv.org/html/2605.07247#bib.bib7)环境作为种子数据;GPT-4o-mini代理收集多轮执行轨迹,预处理为自包含的单轮状态预测样本$(s_t, a_t, s'_t, o_t)$。每一步都可以根据程序标签独立验证,将模拟保真度与状态跟踪解耦,使EnvSim Ability能够客观测量。 > **模块B:** 样本经过三个轴的分层(行动结果、状态变化复杂性、参数基数)和基于执行者的标签,产生167个环境中的400个基准样本。这三个轴允许精确定位故障,而不是将其合并为单一分数。 > **模块C:** *路径1*在相同条件下评估七个前沿LLM。*路径2*训练一个专门的4B模拟模型,当集成到EnvScaler中时,将合成产率提高6.8%,同时将成本降低90%以上。 EnvSimBens做出了四项贡献,通过从概念化到诊断再到补救的逻辑链条相连: **(I)形式化EnvSim Ability。** 我们首次对环境模拟能力(EnvSim Ability)进行了正式定义和具体化,将其作为一个可量化的研究目标,将其确立为一种不同于相关技能的独特能力,并为严谨的评估和改进提供了概念基础。 **(II)一个严谨的基准。** 基于从POMDP到MDP的重构,我们构建了一个包含167个多样化工具交互环境中400个样本的基准,配有可验证的程序标签,并在三个正交轴上进行细粒度难度分层:行动结果、状态变化复杂性和参数基数。 **(III)一个诊断发现:状态变化悬崖。** 系统评估揭示了一种普遍的故障模式:所有模型在保持状态的操作上都能达到近乎完美的准确率,但当多个状态变量必须同时更新时会灾难性地崩溃。我们称之为*状态变化悬崖*的阈值。这一差距与模型规模和一般推理能力正交。更关键的是,生成表面正确反馈的模型可能同时产生不正确的状态转换,静默地损坏训练信号,而代理没有观察到分歧。 **(IV)一种约束驱动的补救措施。** 在这些发现的指导下,我们提出了一种约束驱动的模拟范式,在每一步都使环境架构和转换逻辑显式化,显著减少了幻觉。在这种范式中训练的模拟模型在配置匹配方面超越了所有评估的前端LLM,将合成产率提高了6.8%,并将成本降低了90%以上。这表明,针对性专业化是实现可靠环境模拟的成本效益路径。 ## 2 相关工作 #### LLM环境模拟与合成。 Simia[Liet al. (2025)](https://arxiv.org/html/2605.07247#bib.bib1)证明推理模型可以为代理训练生成合理的工具反馈,确立了基于LLM的模拟工具交互环境作为可扩展代理训练的实用基底。EnvScaler[Songet al. (2026)](https://arxiv.org/html/2605.07247#bib.bib7)扩展了这一方向,展示了工具交互环境的完全自动化合成,大幅降低了构建成本。然而,这两项工作都没有正式将模拟保真度定义为可测量的能力,没有提供跨模型的模拟质量比较,也没有提供原则性的评估指标。EnvSimBens同时解决了这三个差距。相关地,交互式虚构环境[Hausknechtet al. (2020)](https://arxiv.org/html/2605.07247#bib.bib16)和代码执行基准[Jimenezet al. (2024a)](https://arxiv.org/html/2605.07247#bib.bib4)使用可执行环境来评估代理行为;我们的工作颠倒了这种关系,将模拟器本身而不是代理作为评估对象。 #### 代理基准与工具使用。 基于之前关于语言代理的长期工作[Yaoet al. (2023)](https://arxiv.org/html/2605.07247#bib.bib30); [Zhouet al. (2024b)](https://arxiv.org/html/2605.07247#bib.bib18); [Jimenezet al. (2024b)](https://arxiv.org/html/2605.07247#bib.bib28); [Liuet al. (2025)](https://arxiv.org/html/2605.07247#bib.bib27); [Ruanet al. (2024)](https://arxiv.org/html/2605.07247#bib.bib26); [Denget al. (2023)](https://arxiv.org/html/2605.07247#bib.bib33); [Zenget al. (2023)](https://arxiv.org/html/2605.07247#bib.bib32),LLM工具利用[Patilet al. (2024)](https://arxiv.org/html/2605.07247#bib.bib25); [Qinet al. (2024)](https://arxiv.org/html/2605.07247#bib.bib19); [Huanget al. (2024)](https://arxiv.org/html/2605.07247#bib.bib22),以及面向任务的对系统$\tau$-bench[Yaoet al. (2025)](https://arxiv.org/html/2605.07247#bib.bib9)和$\tau^2$-bench[Barreset al. (2025)](https://arxiv.org/html/2605.07247#bib.bib2)建立了多轮、工具使用评估范式,并引入了我们作为诊断框架架构基础的MDP/POMDP区分。ToolSandbox[Luet al. (2025)](https://arxiv.org/html/2605.07247#bib.bib3)使用细粒度状态转换反馈评估有状态的工具使用,提供了一个互补的视角,其中代理在固定的可执行环境进行评估;我们的工作评估模拟器而不是代理,并询问语言模型是否可*替代*这样的执行器可靠地工作。APIGen-MT[Prabhakaret al. (2026)](https://arxiv.org/html/2605.07247#bib.bib14)通过LLM模拟生成多轮训练数据;我们的管道在结构上相似,但用程序验证的真实标签替换了LLM生成的标签,直接解决了促使我们工作的循环验证问题。 #### 幻觉与模拟保真度。 语言模型生成中的幻觉在开放式设置中已被广泛研究[Jiet al. (2023)](https://arxiv.org/html/2605.07247#bib.bib11); [Zhanget al. (2025)](https://arxiv.org/html/2605.07247#bib.bib12)。Gorilla[Patilet al. (2023)](https://arxiv.org/html/2605.07247#bib.bib29)表明,即使在提供正确的API架构时,语言模型也频繁产生不正确的工具参数。这一发现也突显了我们研究的重要性。之前关于语言模型程序执行的工作[Luet al. (2025)](https://arxiv.org/html/2605.07247#bib.bib3)显示,随着相互依赖状态更新数量的增加,预测准确率会下降,强调了多个执行轮次中状态更新的累积效应。EnvSimBens通过使用POMDP到MDP模式,防止了文章中识别的级联依赖。 ## 3 问题表述 #### 工具交互环境。 遵循EnvScaler,我们将环境建模为$\mathcal{E}=(\mathcal{S},\mathcal{A},\mathcal{T},\mathcal{O})$,其中$\mathcal{S}$是状态空间,$\mathcal{A}$是动作空间,$\mathcal{T}:\mathcal{S}\times\mathcal{A}\to\mathcal{S}$是确定性转换函数,$\mathcal{O}:\mathcal{S}\times\mathcal{A}\to\Sigma^*$是返回给代理反馈的观察函数。每个环境维护一个持久配置,编码其完整状态。例如,一个共同基金管理系统跟踪证券、投资组合持仓和交易日志;一个移动认证系统跟踪OTP记录、会话状态和验证时间戳。转换函数$\mathcal{T}$通过工具定义实现,标签$(o,s')$通过执行真实环境获得。 #### 状态预测任务。 给定工具调用$a$,执行前状态$s$,以及工具的实现在代码$\texttt{code}(a)$,模型必须预测结果观察$\hat{o}$和结果配置$\hat{s}'$(表示为应用于$s$的添加/修改/删除操作的结构化列表)。评估使用两个二元指标:反馈匹配(FM),即$\hat{o}$与$o$之间的精确字符串相等,以及配置匹配(CM),即预测的变化
相似文章
EnvScaler:通过程序综合为LLM智能体扩展工具交互环境
EnvScaler是一个自动化框架,通过程序综合为LLM智能体扩展工具交互环境,创建了191个多样化环境和7K个场景,以提升智能体在多轮、多工具交互任务上的性能。
面向大型语言模型的智能体环境工程:环境建模、合成、评估与应用综述
一篇关于面向大型语言模型的智能体环境工程的全面综述,涵盖环境建模、合成、评估与应用,重点聚焦于智能体与环境的协同演化。
从受训者到训练者:LLM为多智能体推理强化学习设计的训练环境
本文介绍了LLM-as-Environment-Engineer框架,该框架使LLM能够为多智能体推理任务中的强化学习设计自己的训练环境,实现自我改进训练,其性能超越更大的专有模型。
EIBench:基于模拟器的基准测试与面向情感管理的回合信用强化学习
EIBench 引入了一个基于模拟器的交互式情感管理基准测试,通过每轮用户状态反馈实现评估与训练。作者提出了 CTC-GRPO,一种强化学习方法,在多个基准测试上提升了情感管理表现。
EnvFactory:通过可执行环境合成与鲁棒强化学习扩展工具使用智能体
EnvFactory 自动化创建可执行工具环境和自然的多轮轨迹,用于训练具有智能体强化学习能力的大语言模型,在使用比先前工作更少的环境下,在 BFCLv3 和 MCP-Atlas 等基准测试上取得了优异性能。