基础模型体的模拟-现实差距:统一的MDP视角
摘要
本文将基础模型体的模拟-现实差距形式化为马尔可夫决策过程问题,提出了统一的研究议程,以适应如领域随机化等经典解决方案,从而提升智能体在真实部署中的鲁棒性和可靠性。
arXiv:2606.07017v1 公告类型:新
摘要:基础模型体(Foundation Model Agents)越来越多地被部署用于真实世界的决策制定,但面临模拟到现实(sim-to-real)的差距。虽然机器人学和经典控制已有成熟的框架来解决这一差距,但基础模型社区却将智能体鲁棒性视为一个全新的现象。本文提出将基础模型体的评估和训练差距形式化为一个经典的模拟-现实问题,完全围绕马尔可夫决策过程的四个要素构建,包括观测(Observation)、动作(Action)、转移(Transition)和奖励(Reward)。在本文中,我们设定了一个全面的研究议程,将经典差异转化为基础模型领域,并倡导采用如领域随机化等已建立的解决方案。我们提供了具体示例,例如一个多语言工具调用,展示了即使语义意图正确,严重的观测空间差距如何导致操作性无效的动作。最终,这一议程旨在推动范式转变,产生统一的词汇和标准化的压力测试基准,以培养新一代高度可信的智能体,用于可靠的真实世界应用。
查看缓存全文
缓存时间: 2026/06/08 09:14
# 基础模型代理的仿真到现实差距:一个统一的MDP视角
来源:https://arxiv.org/html/2606.07017
Xiaoou Liu*, Tiejin Chen*, Weibo Li, Xiyang Hu, Hua Wei
\(2026\)
###### 摘要
基础模型代理越来越多地被部署于现实世界的决策任务中,但面临着仿真到现实的差距。虽然机器人技术和经典控制领域已有成熟的框架来应对这一差距,但基础模型社区却将代理的鲁棒性视为一种全新的现象。本文提出将基础模型代理的评估和训练差距形式化为一个经典的仿真到现实问题,完全围绕马尔可夫决策过程的四个要素进行结构化,包括观测、动作、转移和奖励。我们设定了一个全面的研究议程,将经典差异映射到基础模型领域,并倡导采用诸如领域随机化等成熟解决方案。我们提供了具体例子,例如多语言工具调用,展示了即使语义意图正确,观测空间差异如何导致操作上无效的动作。最终,该议程旨在推动范式转变,形成统一的词汇和标准化的压力测试基准,从而催生新一代高度可信的代理,用于可靠的现实世界应用。
仿真到现实,强化学习,大语言模型代理,MDP
††版权:acm授权††期刊年份:2026††DOI:XXXXXXX.XXXXXXX††会议:第32届ACM SIGKDD知识发现与数据挖掘会议论文集;2026年8月3–7日;美国华盛顿特区††ISBN:978-1-4503-XXXX-X/2018/06## 1. 引言
参考图注图1.基础模型代理系统在MDP分解下的仿真到现实迁移全景图。在模拟MDP \( \mathcal{M}_s \)(左)中训练的策略 \( \pi \) 未经修改直接部署于真实MDP \( \mathcal{M}_r \)(右)中。性能下降源于四个通道——观测、动作、转移和奖励——的差异,表现为一道中央的“差距墙”。每个通道对应不同的现实世界偏移(例如,多语言观测不匹配、动作空间干扰物、随机工具执行、成本感知奖励信号),并可通过受控扰动进行压力测试。相同的分解直接对应经典的仿真到现实补救措施,实现了跨 \( \mathcal{O, A, R, T} \) 的统一基准测试和训练。
随着基础模型的发展(Singh 等,2025 (https://arxiv.org/html/2606.07017#bib.bib76); Grattafiori 等,2024 (https://arxiv.org/html/2606.07017#bib.bib79); QwenTeam,2025 (https://arxiv.org/html/2606.07017#bib.bib77)),基础模型(FM)代理和强化学习(RL)策略越来越多地被部署于现实世界的决策任务中,涵盖工具增强助手(Li 等,2023a (https://arxiv.org/html/2606.07017#bib.bib58))、机器人控制(Kim 等,2024 (https://arxiv.org/html/2606.07017#bib.bib81))和自主系统(Yao 等,2025 (https://arxiv.org/html/2606.07017#bib.bib80))。虽然训练通常发生在干净、精选的基准测试中(数据丰富且失败安全),但部署会使策略面临分布偏移、噪声输入、不可预测的执行约束和随机转移。因此,排行榜上的性能并不等同于现实世界部署的可靠性(Da 等,2025 (https://arxiv.org/html/2606.07017#bib.bib1))。这种仿真到现实(sim-to-real)差距在机器人技术和经典控制领域已被广泛研究,拥有成熟的框架来应对此类差异(Da 等,2024b (https://arxiv.org/html/2606.07017#bib.bib10); Hanna 和 Stone,2017 (https://arxiv.org/html/2606.07017#bib.bib6))。然而,随着基础模型成为代理系统的骨干,社区正在重新发明轮子,将代理鲁棒性视为一种全新的现象,而非已知的部署差距(Zhu 等,2025 (https://arxiv.org/html/2606.07017#bib.bib82); Zhou 等,2026 (https://arxiv.org/html/2606.07017#bib.bib2))。
**我们现在就应该纠正这种孤立的视角,开始解决FM代理中的仿真到现实差距**,因为FM策略正迅速从安全的模拟器转向不可预测的生产环境,忽视已有的仿真到现实框架会使关键漏洞得不到衡量,并导致严重的现实世界失败。
在本文中,**我们的大胆想法**是将FM代理的评估和训练差距形式化为一个经典的仿真到现实问题,完全围绕马尔可夫决策过程的四个要素进行结构化,包括观测、动作、转移和奖励。最近的评估,如工具使用扰动基准测试和多语言工具调用研究,无意中重新发现了这些确切的差距(Rabinovich 和 Tavor,2025 (https://arxiv.org/html/2606.07017#bib.bib22); Wang 等,2026 (https://arxiv.org/html/2606.07017#bib.bib23)),但完全缺乏统一的语言。我们倡导代理社区应采用相同系列的经典解决方案,包括领域随机化(Bellemare 等,2016 (https://arxiv.org/html/2606.07017#bib.bib64); Wiltzer 等,2024 (https://arxiv.org/html/2606.07017#bib.bib65))和接地动作变换(Hanna 和 Stone,2017 (https://arxiv.org/html/2606.07017#bib.bib6); Lin 和 Sun,2025 (https://arxiv.org/html/2606.07017#bib.bib69); Karnan 等,2020 (https://arxiv.org/html/2606.07017#bib.bib8); Da 等,2023 (https://arxiv.org/html/2606.07017#bib.bib11))。建立这种统一的表述在当前至关重要,以防研究努力碎片化,并准确衡量部署准备度。
为了推动前沿并提供一种大胆的方法来应对这种仿真到现实差距,我们在本文后续部分将经典的马尔可夫决策过程视图付诸实施。具体而言,我们借鉴了近期关于强化学习中仿真到现实方法的综述(Da 等,2025 (https://arxiv.org/html/2606.07017#bib.bib1); Zhao 等,2020 (https://arxiv.org/html/2606.07017#bib.bib3)),这些综述按马尔可夫决策过程(MDP)的四个要素(观测 \( \mathcal{O} \)、动作 \( \mathcal{A} \)、转移 \( \mathcal{T} \)、奖励 \( \mathcal{R} \))组织技术。我们将在第2节回顾传统强化学习中的这四个差距,包括其典型原因和经典缓解技术,然后在第3节专门将这些经典差异映射到FM领域。在本节中,我们为每个组件提供具体示例,并建议如何设计基准测试范式以系统性地暴露这些漏洞。为了证明此类差距确实存在于实践中,我们纳入了近期关于多语言工具调用(Luo 等,2026 (https://arxiv.org/html/2606.07017#bib.bib24))的研究,该研究突显了严重的观测空间差距:模型正确理解用户意图并选择了适当的工具,但用用户语言生成参数值,违反了严格的执行层约定,导致操作上无效的工具调用。最后,第4节概述了针对这些差距强化代理的具体研究方向。
如果我们所有的想法都成功,结果将是一场根本性的范式转变:该领域将共享一套统一的漏洞词汇表,并普遍采用标准化的压力测试基准。这种集体转变将直接催生新一代高度可信的代理,即使在严重多语言输入、转移扰动和成本感知奖励约束下也能内在保持性能。基础模型的研究人员将获得一套结构化的鲁棒性测试方法,而部署自主系统的实践者将获得一个可靠的安全生产环境蓝图。这些特定群体及其部署挑战代表了KDD社区的核心关注点。因此,本议程直接推进KDD主题议题,为可信赖和负责任的数据科学建立严格的基础,并塑造现代AI以应用于可靠的现实世界场景。
## 2. 问题形式化与经典解决方案
RL通常被形式化为一个折扣马尔可夫决策过程(MDP)(Feinberg 和 Shwartz,2012 (https://arxiv.org/html/2606.07017#bib.bib4))\( \mathcal{M}=(\mathcal{S},\mathcal{A},\mathcal{T},\mathcal{R},\gamma) \),其中 \( \mathcal{S} \) 是状态空间,\( \mathcal{A} \) 是动作空间,\( \mathcal{T}(s_{t+1} \mid s_t, a_t) \) 是转移动力学,\( \mathcal{R} \) 是奖励函数,\( \gamma \in [0,1) \) 是折扣因子。目标是学习一个策略 \( \pi \) 以最大化期望折扣回报。在仿真到现实设置中,策略在模拟MDP \( \mathcal{M}_s \) 中训练,并部署到现实世界MDP \( \mathcal{M}_r \) 中。根据先前工作(Da 等,[2025](https://arxiv.org/html/2606.07017#bib.bib1)),策略 \( \pi \) 的**仿真到现实差距**可定义为 \( G(\pi) := \psi_s(\pi) - \psi_r(\pi) \),其中 \( \psi_s(\cdot) \) 和 \( \psi_r(\cdot) \) 分别表示在仿真和真实环境中计算的相同评估指标。从MDP的角度来看,\( G(\pi) \) 的来源可归因于过程核心要素的差异:观测、动作、转移和奖励。
• **观测差距**。在仿真到现实RL中,代理在仿真中感知到的观测通常与真实世界中不同,即 \( o_t^s \neq o_t^r \),这会在部署后引起系统性性能下降。观测差距的两个常见来源是:(1)**感知完整性**:模拟器可能提供理想或完全观测信号(例如 \( o_t^s = s_t^s \)),而真实观测是部分、有噪声、有延迟或受遮挡的。(2)**表示不匹配**:传感器模态、分辨率、校准和编码的差异导致观测空间中的分布偏移,即使底层任务动力学相似。**缓解观测差距的技术**包括:*(1)领域随机化*:在仿真中随机化视觉和感知参数,以鼓励不变性并改善分布外泛化(Tobin 等,2017 (https://arxiv.org/html/2606.07017#bib.bib5))。*(2)领域自适应*:对齐仿真和现实观测特征分布,例如通过对抗目标(Bousmalis 等,2017 (https://arxiv.org/html/2606.07017#bib.bib91))或嵌入对齐(Park 等,2021 (https://arxiv.org/html/2606.07017#bib.bib92))来减少跨域差异。*(3)传感器融合*:合并互补模态以减少对任何单一有偏通道的依赖,从而提高在现实世界感知不完善下的鲁棒性。
• **动作差距**。在仿真到现实RL中,在仿真中有效且有效的动作可能无法忠实地传递到现实世界。动作差距的三个常见来源是:*(1)动作粒度*:模拟器通常使用离散化或简化的动作空间,并假设近乎完美的执行,而现实控制是连续的、细粒度的,并受底层驱动限制约束;*(2)执行不确定性*:真实驱动是随机且不完美的,预期动作可能被扰动或经历意外的幅度缩放(Bellemare 等,2016 (https://arxiv.org/html/2606.07017#bib.bib64); Wiltzer 等,2024 (https://arxiv.org/html/2606.07017#bib.bib65));*(3)系统延迟*:真实执行器和API引入延迟和抖动,因此有效动作可能在 \( t+\delta \) 时刻而非仿真中假设的立即时刻被应用。**缓解动作差距的技术**包括:*(1)动作屏蔽*:在执行前投影或过滤提议的动作,以确保可行性和安全性。*(2)延迟感知控制*:显式建模延迟(例如常数或随机延迟MDP变体),并训练对延迟驱动鲁棒的策略。*(3)针对驱动不确定性的鲁棒化*:使用动作扰动/噪声注入或鲁棒RL目标,提高在扰动动作和动作幅度偏移下的稳定性(Tan 等,2020 (https://arxiv.org/html/2606.07017#bib.bib66); Liu 等,2024 (https://arxiv.org/html/2606.07017#bib.bib67))。
• **转移差距**。仿真到现实迁移常常遭受**转移差距**,其中仿真中的下一状态动力学与真实环境中的不同(Hanna 和 Stone,2017 (https://arxiv.org/html/2606.07017#bib.bib6); Lin 和 Sun,2025 (https://arxiv.org/html/2606.07017#bib.bib69))。这种差距源于对真实动力学的不准确或不完整建模。**缓解转移差距的技术**包括:*(1)转移级领域随机化*:扰动动力学参数以训练对模型误差鲁棒的策略(Valassakis 等,2020 (https://arxiv.org/html/2606.07017#bib.bib13); Mehta 等,2020 (https://arxiv.org/html/2606.07017#bib.bib12))。*(2)接地方法*(Hanna 和 Stone,2017 (https://arxiv.org/html/2606.07017#bib.bib6); Desai 等,2020b (https://arxiv.org/html/2606.07017#bib.bib7); Karnan 等,2020 (https://arxiv.org/html/2606.07017#bib.bib8); Desai 等,2020a (https://arxiv.org/html/2606.07017#bib.bib9))学习一个映射,将仿真转移变换为真实转移(Da 等,2023 (https://arxiv.org/html/2606.07017#bib.bib11); Karnan 等,2020 (https://arxiv.org/html/2606.07017#bib.bib8))。*(3)分布鲁棒学习*:优化策略以在未知但有界的转移偏移下表现良好(Smirnova 等,2019 (https://arxiv.org/html/2606.07017#bib.bib70))。
• **奖励差距**。在仿真到现实RL中,仿真中指定的奖励可能无法忠实地反映现实世界目标,原因是任务建模不完整或观测、动作和转移不匹配的级联效应(Li 等,2023b (https://arxiv.org/html/2606.07017#bib.bib72))。例如,延迟或错误执行的动作会改变实际结果,从而改变获得的奖励(Kim 等,2026b (https://arxiv.org/html/2606.07017#bib.bib74))。**缓解奖励差距的技术**包括:*(1)奖励塑形*:在保持最优策略的条件下提供更密集、更具信息量的反馈,例如基于潜能的塑形(Badnava 等,2023 (https://arxiv.org/html/2606.07017#bib.bib86))。奖励塑形也可以结合结构化先验,如自动机引导的塑形,以更好地处理稀疏目标(Velasquez 等,2021 (https://arxiv.org/html/2606.07017#bib.bib88))。*(2)奖励增强*:利用有限的真实环境数据来细化或补充回报信号,例如通过匹配仿真-真实轨迹分布或为回报条件学习增强回报。这提高了在数据稀缺下迁移策略的性能(Guo 等,2024 (https://arxiv.org/html/2606.07017#bib.bib87))。
表1. 传统RL中仿真到现实差距与其在FM代理中的类比对照,按四个MDP要素组织。
## 3. FM控制代理中的差距与基准测试范式
在第2节中,我们介绍了跨 \( \mathcal{O} \)、\( \mathcal{A} \)、\( \mathcal{T} \)、\( \mathcal{R} \) 的仿真到现实差距。在本节中,我们将进一步分析这些差距如何在FM控制的代理中体现,表1 (https://arxiv.org/html/2606.07017#S2.T1) 将传统仿真到现相似文章
注意仿真与现实的差距,并像科学家一样思考
本文研究在序贯决策问题中,规划者何时以及如何用真实实验补充预训练模拟器,提出Fisher-SEP以最小化目标策略值的后验方差。
策略感知模拟器学习的理论基础与高效算法
本文提出了一种用于基于模型的强化学习中模拟器学习的策略鲁棒性目标,将其建模为模型玩家与对抗性策略玩家之间的极小极大博弈。提供了理论保证和可证明收敛的算法,实验表明预测误差在关键区域降低1.5-2.2倍,并提升了策略从模拟到真实世界的迁移效果。
面向配电缺陷检测的多模态智能体:基础模型评估
本文提出了一种用于配电缺陷检测的多模态智能体框架,评估了基础模型在感知、推理和工具使用能力方面的表现,并提供了新的领域特定数据集和基准。
通过动力学随机化实现机器人控制的仿真到现实迁移
OpenAI 研究人员演示了一种通过使用随机化的模拟器动力学来训练策略,从而弥合现实差距的方法。这使得完全在仿真环境中训练的机器人能够成功迁移到现实世界任务,如物体操作,无需进行物理训练。
RealUserSim:通过真实用户模拟弥合智能体基准测试中的现实差距
本文介绍了RealUserSim,一个将基于LLM的用户模拟扎根于来自14,000+真实对话的人类行为数据中的框架,旨在弥合智能体基准测试中的现实差距。研究表明,基于真实数据的模拟将行为匹配率从24.2%提升至45.3%,并揭示了协作型模拟器无法发现的失效机制。