用于LLM智能体离线策略评估的自回归扩散世界模型

arXiv cs.LG 论文

摘要

提出了Adwm,一种用于LLM智能体离线策略评估的自回归扩散世界模型,能够从预先收集的轨迹中实现可靠的价值估计,无需在线交互。

arXiv:2606.05558v1 Announce Type: new 摘要:在多轮交互环境中评估大语言模型(LLM)智能体成本高昂且风险较大,因为需要在线环境交互。我们提出ADWM(自回归扩散世界模型),一种仅从预先收集的轨迹中估计新LLM智能体策略性能的评估框架。核心思想是学习一个潜在扩散世界模型,模拟环境如何响应评估策略,而无需在真实环境中执行。现有的基于扩散的OPE方法通过联合扩散状态和动作来一次性引导完整轨迹,但对于LLM智能体而言,这一假设不再成立,因为其动作是离散文本,必须在观察环境后从策略中采样。与存在复合误差问题的自回归世界模型不同,ADWM将每个转移建模为一个独立的去噪过程,从而能够以因果顺序交替运行世界模型和智能体,实现可靠的逐步推演。关键在于,被评估的LLM智能体通过策略条件得分函数直接指导每一步的扩散生成,确保模拟轨迹准确反映其决策模式。实验表明,ADWM在多种多轮智能体任务中实现了准确的价值估计和评估可靠性,展示了其作为离线LLM智能体评估实用框架的潜力。
查看原文
查看缓存全文

缓存时间: 2026/06/05 08:11

# 自回归扩散世界模型用于LLM智能体的离策略评估 来源: https://arxiv.org/html/2606.05558 Kaixuan Liu 计算机科学系 埃默里大学 亚特兰大, GA, 美国 kaixuan\.liu@emory\.edu &Guojun Xiong 计算机科学系 上海交通大学 上海, 中国 gjxiong@sjtu\.edu\.cn Weinan Zhang 计算机科学系 上海交通大学 上海, 中国 wnzhang@sjtu\.edu\.cn &Shengpu Tang 计算机科学系 埃默里大学 亚特兰大, GA, 美国 shengpu\.tang@emory\.edu ###### 摘要 在多轮交互环境中评估大语言模型(LLM)智能体成本高昂且存在风险,因为它需要在线环境交互。我们提出Adwm(自回归扩散世界模型),一个仅从预先收集的轨迹中估算新LLM智能体策略性能的评估框架。其核心思想是学习一个潜在扩散世界模型,该模型模拟环境如何响应评估策略,而无需在实际环境中执行该策略。现有的基于扩散的OPE方法通过联合扩散状态和动作,在单次前向过程中生成完整轨迹,但这种假设对于LLM智能体来说不成立,因为LLM智能体的动作是离散文本,必须在观察环境后从策略中采样。与遭受累积误差的自回归世界模型不同,Adwm将每个转移建模为独立的去噪过程,从而能够以因果顺序交替进行世界模型和智能体的可靠逐步生成。关键之处在于,被评估的LLM智能体通过策略条件得分函数直接引导每一步的扩散生成,确保模拟轨迹准确反映其决策模式。实验表明,Adwm在多种多轮智能体任务中实现了准确的价值估计和评估可靠性,展示了其作为离线LLM智能体评估实用框架的潜力。 ## 1 引言 大语言模型智能体越来越多地部署在多轮交互环境中,例如浏览网站、编写和执行代码、以及推理长文档上下文(Yao等,2022 (https://arxiv.org/html/2606.05558#bib.bib5); Zhou等,2023 (https://arxiv.org/html/2606.05558#bib.bib6); Jimenez等,2023 (https://arxiv.org/html/2606.05558#bib.bib7))。随着这些智能体被委以更高风险的任务,在部署前评估新智能体策略变得至关重要。然而评估成本高昂;每个新智能体必须在真实环境中实时执行,消耗API预算并可能造成不可逆的副作用。离策略评估(OPE)通过从预先收集的离线数据中估算新智能体的价值来解决这一挑战,无需进一步的环境交互。重要性采样方法通过策略似然比对离线轨迹进行重加权(Liu等,2018 (https://arxiv.org/html/2606.05558#bib.bib27); Metelli等,2021 (https://arxiv.org/html/2606.05558#bib.bib26)),但这些权重随轨迹长度呈指数增长,使得该估计器在多轮智能体场景中不实用。基于价值的直接方法尝试在离线数据上拟合价值函数(Le等,2019 (https://arxiv.org/html/2606.05558#bib.bib22); Paine等,2020 (https://arxiv.org/html/2606.05558#bib.bib34)),但当评估策略与行为策略差异显著时,会遭受累积偏差。双重稳健方法将两者结合(Farajtabar等,2018 (https://arxiv.org/html/2606.05558#bib.bib35); Kallus and Uehara,2022 (https://arxiv.org/html/2606.05558#bib.bib28)),部分缓解了这些问题,但未能解决高维文本空间中长时域分布偏移的根本困难。 在直接方法中,一种更有前途的基于模型的替代方案是构建世界模型:从离线数据中学习环境动态,并在评估策略下模拟生成(rollout)(Hanna等,2017 (https://arxiv.org/html/2606.05558#bib.bib36); Lu等,2023 (https://arxiv.org/html/2606.05558#bib.bib30))。在智能体场景中,这种模拟必须是*自回归*的:每个LLM动作依赖于刚刚接收到的观测,因此世界模型和智能体必须以因果顺序逐步交替。基于自回归Transformer的世界模型(Micheli等,2022 (https://arxiv.org/html/2606.05558#bib.bib13); Hafner等,2023 (https://arxiv.org/html/2606.05558#bib.bib12))自然地遵循这种结构,但逐token生成观测,导致误差在每一步内累积并进一步跨步累积,这是LLM智能体面临的长时域任务的一个关键失败模式。 扩散模型提供了一种原则性的补救方法:通过将每个转移建模为独立的去噪过程,误差不会跨步传播(Ho等,2020 (https://arxiv.org/html/2606.05558#bib.bib1); Dhariwal and Nichol,2021 (https://arxiv.org/html/2606.05558#bib.bib2)),并且得分函数引导使得评估策略能够引导生成而无需重新训练。然而,现有的基于扩散的OPE方法(Jackson等,2024 (https://arxiv.org/html/2606.05558#bib.bib4); Lu等,2023 (https://arxiv.org/html/2606.05558#bib.bib30))是为连续控制设计的,其中状态和动作都是实值向量,可以作为单个张量一次性联合加噪和去噪,动作由扩散过程本身生成,评估策略仅作为引导信号进入。在LLM智能体设置中,这种假设从根本上不成立:动作是离散文本,必须在*观察*环境后从LLM中采样,不能参与轨迹上的联合连续扩散。因此,一次性生成完整轨迹要求在所有观测生成之前就知道所有LLM动作,这是一种与智能体评估所需的逐步生成不可调和的循环依赖。 见图注 图1:LLM智能体评估范式的比较。(左)在线策略评估需要在真实环境中执行智能体,成本高昂且可能不安全。(中)传统的离策略评估从离线数据中学习基于模型的模拟器,但面临两个基本问题:行为策略与目标策略之间的分布偏移,以及多步生成过程中累积的误差。(右)我们的AdwmAdwm同时解决了这两个问题。策略引导将πe\\pi\_\{e\}注入每个去噪步骤以缓解分布偏移,而扩散先验结合动作感知去噪则减轻了累积误差。 我们提出Adwm(自回归扩散世界模型),这是一个用于LLM智能体的离线评估框架,通过将世界模型本身实例化为一个扩散过程来解决这一矛盾(见图1 (https://arxiv.org/html/2606.05558#S1.F1))。关键见解在于,全局策略引导的轨迹定律可以*精确地*分解为一系列单步条件概率的乘积,每个条件概率又可分解为三个因子的乘积:先验、动作后验和策略延续因子(定理1 (https://arxiv.org/html/2606.05558#Thmtheorem1))。这种乘积结构直接映射到引导扩散上,评估策略通过其对数似然梯度引导每个去噪步骤。由于每个转移是独立的去噪过程,误差不会跨步累积。Adwm完全在离线状态下训练,并在推理时无需重新训练即可评估任何新智能体。我们的贡献总结如下: ⊳\\triangleright我们推导了策略引导轨迹定律所引发的精确自回归单步条件概率,证明它可以分解为一个原则性的三因子乘积(定理1 (https://arxiv.org/html/2606.05558#Thmtheorem1))。 ⊳\\triangleright我们在结构化潜在空间中实现了这种分解作为引导扩散过程,其中评估策略参与每个去噪步骤而无需重新训练世界模型。 ⊳\\triangleright我们通过实验证明,Adwm在多种多轮LLM智能体基准上正确排序评估策略,在真实的LLM重要性比率下优于经典的OPE基线。 ## 2 相关工作 #### 基于模型的OPE。基于模型的OPE方法通过从离线数据中学习转移模型并在评估策略下执行模拟生成来估计策略价值(Yu等,2020 (https://arxiv.org/html/2606.05558#bib.bib14),2021 (https://arxiv.org/html/2606.05558#bib.bib15))。核心难点是累积模型误差:所学转移中的小误差会跨步累积,导致模拟轨迹在长时域上偏离真实环境动态(Janner等,2019 (https://arxiv.org/html/2606.05558#bib.bib38); Sutton,1996 (https://arxiv.org/html/2606.05558#bib.bib39); Asadi等,2019 (https://arxiv.org/html/2606.05558#bib.bib42))。现有方法通过悲观价值惩罚或保守策略优化来缓解这一问题(Jin等,2021 (https://arxiv.org/html/2606.05558#bib.bib43)),但这些技术是为低维连续控制设计的,无法扩展到自由形式的文本观测。除了误差累积,这些方法无法提供机制将模拟生成条件化于评估策略,因此生成的轨迹反映的是行为分布而非评估策略实际会产生的分布(Voloshin等,2019 (https://arxiv.org/html/2606.05558#bib.bib33); Feng等,2020 (https://arxiv.org/html/2606.05558#bib.bib32))。Adwm解决了这两个问题:将每个转移建模为独立的去噪过程打破了误差累积链(Janner等,2022 (https://arxiv.org/html/2606.05558#bib.bib23); Ajay等,2022 (https://arxiv.org/html/2606.05558#bib.bib24)),而引导得分函数确保每个生成的观测都条件化于评估策略。 #### 用于世界建模的扩散模型。扩散模型已成为强大的环境模拟器,将每个转移建模为独立的去噪过程,从而避免了困扰自回归世界模型的累积误差。全序列模型一次性联合生成整个轨迹(Janner等,2022 (https://arxiv.org/html/2606.05558#bib.bib23); Ajay等,2022 (https://arxiv.org/html/2606.05558#bib.bib24); Huang等,2025 (https://arxiv.org/html/2606.05558#bib.bib18)),将状态和动作视为单个联合扩散的张量。这种设计排除了逐步生成的可能性,因为动作是由扩散过程本身产生的,而非从外部策略中采样。基于得分的引导(Ho and Salimans,2022 (https://arxiv.org/html/2606.05558#bib.bib3))可以将这种生成导向目标策略(Lu等,2023 (https://arxiv.org/html/2606.05558#bib.bib30); Jackson等,2024 (https://arxiv.org/html/2606.05558#bib.bib4)),但继承了同样的局限性:动作必须是参与联合扩散的实值向量,这一假设对于LLM智能体不成立,因为LLM智能体的动作是在观察环境后从策略中采样的离散文本。Adwm通过推导一个精确的分解得分函数解决了这一问题,使得评估策略能够自回归地引导每个去噪步骤,而无需动作成为扩散过程的一部分。 ## 3 问题形式化 ### 3.1 智能体强化学习 我们将智能体强化学习形式化为一个序列决策问题,建模为部分可观测马尔可夫决策过程(POMDP)M=\(S,A,O,P,E,r,μ,γ\)\\mathcal\{M\}=\(\\mathcal\{S\},\\mathcal\{A\},\\mathcal\{O\},P,\\mathcal\{E\},r,\\mu,\\gamma\),其中S\\mathcal\{S\}是状态空间,A\\mathcal\{A\}是动作空间,O\\mathcal\{O\}是观测空间,P:S×A→Δ\(S\)P:\\mathcal\{S\}\\times\\mathcal\{A\}\\to\\Delta\(\\mathcal\{S\}\)是转移核,E:S→Δ\(O\)\\mathcal\{E\}:\\mathcal\{S\}\\to\\Delta\(\\mathcal\{O\}\)是发射分布,r:S×A→Rr:\\mathcal\{S\}\\times\\mathcal\{A\}\\to\\mathbb\{R\}是奖励函数,μ∈Δ\(S\)\\mu\\in\\Delta\(\\mathcal\{S\}\)是初始状态分布,γ∈\[0,1\)\\gamma\\in\[0,1\)是折扣因子。由于智能体无法直接访问sts\_\{t\},它接收由环境发射的部分观测ot∈Oo\_\{t\}\\in\\mathcal\{O\},其中ot∼O\(⋅∣st\)o\_\{t\}\\sim\\mathcal\{O\}\(\\cdot\\mid s\_\{t\}\)是发射分布。智能体与环境交互TT轮。在每一轮t∈\{1,...,T\}t\\in\\\{1,\\dots,T\\\}中,环境处于状态st∈Ss\_\{t\}\\in\\mathcal\{S\},智能体从中接收观测ot∈Oo\_\{t\}\\in\\mathcal\{O\},并基于交互历史选择动作at∼π\(⋅∣ht\)a\_\{t\}\\sim\\pi\(\\cdot\\mid h\_\{t\}\): ht=\(o1,a1,...,ot−1,at−1,ot\)。h\_\{t\}=\(o\_\{1\},a\_\{1\},\\dots,o\_\{t\-1\},a\_\{t\-1\},o\_\{t\}\)。然后环境转移到下一个状态st\+1∼P\(⋅∣st,at\)s\_\{t\+1\}\\sim P\(\\cdot\\mid s\_\{t\},a\_\{t\}\)并发射奖励rt=r\(st,at\)r\_\{t\}=r\(s\_\{t\},a\_\{t\}\)。完整的轨迹τ=\(o1,a1,r1,...,oT,aT,rT\)\\tau=\(o\_\{1\},a\_\{1\},r\_\{1\},\\dots,o\_\{T\},a\_\{T\},r\_\{T\}\)具有折扣回报R\(τ\)=∑t=1Tγt−1rtR\(\\tau\)=\\sum\_\{t=1\}^\{T\}\\gamma^\{t\-1\}r\_\{t\},并诱导出轨迹分布: pπ\(τ\)=μ\(s1\)∏t=1Tπ\(at∣ht\)P\(st\+1∣st,at\)。p\_\{\\pi\}\(\\tau\)=\\mu\(s\_\{1\}\)\\prod\_\{t=1\}^\{T\}\\pi\(a\_\{t\}\\mid h\_\{t\}\)\\,P\(s\_\{t\+1\}\\mid s\_\{t\},a\_\{t\}\)。因此策略π\\pi的价值为J\(π\)=Eτ∼pπ\[R\(τ\)\]J\(\\pi\)=\\mathbb\{E\}\_\{\\tau\\sim p\_\{\\pi\}\}\[R\(\\tau\)\]。 ### 3.2 LLM智能体的离策略评估 我们假设存在一个离线数据集: D=\{τ\(i\)\}i=1N,τ\(i\)∼pπb\(τ\),\\mathcal\{D\}=\\\{\\tau^\{\(i\)\}\\\}\_\{i=1\}^\{N\},\\qquad\\tau^\{\(i\)\}\\sim p\_\{\\pi\_\{b\}\}\(\\tau\),由行为策略πb\\pi\_\{b\}收集,该策略可能对应多种LLM配置的混合,且被视为未知。给定D\\mathcal\{D\}和一个目标评估策略πe\\pi\_\{e\}(一个不同于πb\\pi\_\{b\}的语言模型,将观测历史hth\_\{t\}映射到文本动作分布),离策略评估(OPE)的目标是估算: J\(πe\)=Eτ∼pπe\[R\(τ\)\],J\(\\pi\_\{e\}\)=\\mathbb\{E\}\_\{\\tau\\sim p\_\{\\pi\_\{e\}\}\}\[R\(\\tau\)\],而无需在实际环境中执行πe\\pi\_\{e\}。核心挑战是分布偏移:由于pπb\(τ\)≠pπe\(τ\)p\_\{\\pi\_\{b\}\}\(\\tau\)\\neq p\_\{\\pi\_\{e\}\}\(\\tau\),D\\mathcal\{D\}中的轨迹并非来自pπep\_\{\\pi\_\{e\}\}的代表性样本,直接对D\\mathcal\{D\}进行蒙特卡洛估计会存在严重偏差。我们通过学习一个扩散世界模型来直接模拟在πe\\pi\_\{e\}下的生成过程,从而绕过显式密度比估计的需求,来解决这一挑战。 ### 3.3 去噪扩散模型 去噪扩散概率模型(DDPMs)(Ho等,2020 (https://arxiv.org/html/2606.05558#bib.bib1))通过两个耦合的马尔可夫链学习近似目标分布q\(x\)q\(x\)。前向过程逐步破坏干净的样本x0∼q\(x\)x^\{0\}\\sim q\(x\),经过KK步: xk=α ̄kx0\+1−α ̄kε,ε∼N\(0,I\),x^\{k\}=\\sqrt\{\\bar\{\\alpha\}\_\{k\}\}\\,x^\{0\}+\\sqrt\{1\-\\bar\{\\alpha\}\_\{k\}\}\\,\\epsilon,\\qquad\\epsilon\\sim\\mathcal\{N\}\(0,I\),其中\{α ̄k\}k=1K\\\{\\bar\{\\alpha\}\_\{k\}\\\}\_\{k=1\}^\{K\}是递减的噪声调度,且α ̄K≈0\\bar\{\\alpha\}\_\{K\}\\approx 0。逆向过程学习通过迭代应用pθ\(xk−1∣xk\)=N\(xk−1;μθ\(xk,k\),σk2I\)p\_\{\\theta\}\(x^\{k\-1\}\\

相似文章

通过扩散策略优化扩展世界模型强化学习

arXiv cs.LG

提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。