以状态为中心的决策过程
摘要
介绍了以状态为中心的决策过程(SDP),这是一种运行时框架,使得语言代理能够从原始文本环境中构建由任务引发的状态空间、观测到状态的映射、认证的转移以及终止条件。在五个基准测试中实现了最先进的无训练结果。
arXiv:2605.12755v1 Announce Type: new
摘要:语言环境如网页浏览器、代码终端和交互模拟输出的是原始文本而非状态,并且不提供MDP分析所需的任何运行时结构。没有明确的状态空间,没有观测到状态的映射,没有认证的转移,也没有终止条件。我们引入了以状态为中心的决策过程(SDP),这是一种运行时框架,它通过让代理在行动过程中逐谓词地构建这些缺失的输入来构建它们。在每个步骤中,代理承诺一个自然语言谓词来描述世界应该是什么样子,采取行动使其成立,并对照该谓词检查观测结果。通过的谓词成为认证状态,生成的轨迹携带语言环境不提供的四个对象,即由任务引发的状态空间、观测到状态的映射、认证的转移以及终止条件。我们在涵盖规划、科学探索、Web推理和多跳问答的五个基准上评估了SDP。SDP在所有五个基准上都取得了最好的无训练结果,并且随着视野的增长优势进一步扩大。认证轨迹还支持反应式代理无法进行的分析,包括逐谓词的信度分配、故障定位、部分进度测量和模块化操作符替换。
查看缓存全文
缓存时间: 2026/05/14 06:14
# 以状态为中心的决策过程
来源:https://arxiv.org/html/2605.12755
SUNGHEON JEONG¹ RYOZO MASUKAWA¹ SANGGEON YUN¹ MAHDI IMANI² MOHSEN IMANI¹
¹加州大学尔湾分校,²东北大学
sungheoj@uci\.edu
###### 摘要
语言环境(如网络浏览器、代码终端和交互式模拟)输出的是原始文本而非状态,并且不提供MDP分析所需的任何运行时结构。没有明确的状态空间,没有从观察到状态的映射,没有经过认证的转移,也没有终止标准。我们提出**以状态为中心的决策过程**(State-Centric Decision Process, SDP),这是一种运行时框架,通过让智能体在行动过程中逐谓词地构建这些缺失的输入来弥补这一缺口。每一步,智能体都承诺一个描述世界在下一步应呈现样子的自然语言谓词,然后采取一个旨在使该谓词成立的动作,并检查观察结果是否与之相符。通过检查的谓词成为认证状态,由此产生的轨迹携带了语言环境无法提供的四个对象:任务诱导的状态空间、观察到状态的映射、认证的转移以及终止标准。我们在涵盖规划、科学探索、网络推理和多跳问答的五个基准上评估SDP。SDP在所有五个基准上取得了最好的无需训练的结果,且随着任务长度的增加优势进一步扩大。认证轨迹还支持反应式智能体无法进行的分析,包括逐谓词信用分配、故障定位、部分进度测量和模块化运算符替换。
## 1 引言
语言智能体运行的从未是为自主决策而设计的环境,从网络浏览器、代码终端到交互式模拟和多步骤工具使用流水线(Yoran等, 2024 (https://arxiv.org/html/2605.12755#bib.bib3);Zhou等, 2023b (https://arxiv.org/html/2605.12755#bib.bib34);Jimenez等, 2023 (https://arxiv.org/html/2605.12755#bib.bib40);Wang等, 2022 (https://arxiv.org/html/2605.12755#bib.bib2);Xie等, 2024 (https://arxiv.org/html/2605.12755#bib.bib1))。大型语言模型使这成为可能,它们从大量训练语料中吸收了足够的关于世界的知识,能够从原始观察中选择合理的动作,而无需针对特定环境进行工程化处理(Brown等, 2020 (https://arxiv.org/html/2605.12755#bib.bib41);Wei等, 2022 (https://arxiv.org/html/2605.12755#bib.bib42);Achiam等, 2023 (https://arxiv.org/html/2605.12755#bib.bib43);Huang等, 2022a (https://arxiv.org/html/2605.12755#bib.bib44);Xi等, 2025 (https://arxiv.org/html/2605.12755#bib.bib46))。然而,动作选择的成功并未给轨迹赋予任何形式的结构:没有明确的状态,没有经过验证的转移,没有任何东西可以供下游方法定义转移或分配信用。语言环境甚至连原则性都无法提供这种结构。同一个情境可以对应无数种有效的自然语言描述,而哪些描述算作有用的状态是由目标决定的,环境无法获取这一选择。没有状态空间,序列决策就失去了操作表面。现有的语言智能体解决了这一差距的部分问题,但没有一个能完全弥合。反应式智能体(Yao等, 2022 (https://arxiv.org/html/2605.12755#bib.bib6);Schick等, 2023 (https://arxiv.org/html/2605.12755#bib.bib47))将推理与动作选择交织在一起,但直接操作原始观察,而不构建明确的状态。反思式智能体更进一步,跨回合积累口头经验或因果记忆(Shinn等, 2023 (https://arxiv.org/html/2605.12755#bib.bib8);Majumder等, 2023 (https://arxiv.org/html/2605.12755#bib.bib25);Zhao等, 2024 (https://arxiv.org/html/2605.12755#bib.bib28)),但这些总结是开放式的文本,而不是由认证转移连接的状态。动作规划器(Wang等, 2023b (https://arxiv.org/html/2605.12755#bib.bib7);Yao等, 2023 (https://arxiv.org/html/2605.12755#bib.bib29);Zhou等, 2023a (https://arxiv.org/html/2605.12755#bib.bib30))在执行之前或期间对候选动作序列进行深思熟虑,获得了前瞻的好处,但计划条目是要做的事情,而不是需要验证的条件,因此无法针对环境检查进展。世界模型方法(Wang等, 2023c (https://arxiv.org/html/2605.12755#bib.bib32);Hao等, 2023 (https://arxiv.org/html/2605.12755#bib.bib48);Liu等, 2023 (https://arxiv.org/html/2605.12755#bib.bib49);Sun等, 2023a (https://arxiv.org/html/2605.12755#bib.bib15))构建环境的内部描述,最接近显式状态,但这些描述被选择动作的同一个模块使用,没有逐步骤的认证来证明它们确实成立。在每种情况下,轨迹仍然是原始观察和动作的序列,而非经过验证的状态序列,因此无法定义转移和信用。在短任务上,这尚可容忍;在长程问题中,错误会累积,并且必须跟踪中间进展,智能体没有形式上的信号表明正在取得进展。
我们提出通过让智能体在运行时自行构建其马尔可夫决策过程(MDP)来弥合这一差距。我们将由此产生的框架称为**以状态为中心的决策过程**(State-Centric Decision Process, SDP)。智能体不是选择动作并将状态视为副产品,而是首先承诺一个自然语言谓词,描述下一步动作后世界应该呈现的样子——这是一个可检查的条件,作用于产生的观察。然后它采取一个旨在使该谓词成立的动作,并检查观察结果是否与之相符。通过检查的谓词成为认证状态。通过先于动作承诺谓词,智能体将其意图转化为环境可以证伪的形式,由此产生的轨迹恰好携带了MDP分析所需但语言环境无法提供的四个对象:状态、转移、动作和信用。因此,SDP不是基于MDP的智能体公式的竞争者,而是它们预设的接口层。
**贡献。**
1. **识别缺失的输入。** 我们形式化了文献中未明确的一个规范问题:基于MDP的分析需要语言环境不提供的四个对象,且这一差距是规范性的,而非样本复杂性的。
2. **SDP框架。** 我们提出了以状态为中心的决策过程,这是一个运行时框架,通过将智能体分解为Propose(提议)、Realize(实现)、Validate(验证)和Replan(重新规划)四个基于自然语言谓词的操作符,生成马尔可夫轨迹。
3. **实证评估。** SDP在所有五个基准上取得了最好的无需训练的结果,且随着任务长度的增加差距扩大,并通过消融实验分离了每个操作符的贡献。
4. **轨迹作为诊断工件。** 认证轨迹支持先前智能体无法进行的分析:故障定位、部分进度跟踪、级联记录和验证器审计。
## 2 预备知识:语言环境中的MDP差距
MDP分析需要一个状态空间、一个观察到状态的映射、一个转移核和一个终止标准(Puterman, 2014 (https://arxiv.org/html/2605.12755#bib.bib50);Sutton等, 1998 (https://arxiv.org/html/2605.12755#bib.bib51))。语言环境不提供这些中的任何一个。它们输出的是非结构化文本(如网页、终端输出和API响应),而不是状态,并且其接口并未承诺智能体应将什么视为状态(Xi等, 2025 (https://arxiv.org/html/2605.12755#bib.bib46);Wang等, 2024 (https://arxiv.org/html/2605.12755#bib.bib52);Somers等, 2023 (https://arxiv.org/html/2605.12755#bib.bib53))。没有固定的状态空间,其余的MDP构造甚至无法表述,更不用说估计或优化了。本节识别了这一差距以及任何框架在MDP分析之前必须提供的四个输入。
**有用的状态抽象是依赖目标的。** 令 \(\mathcal{O}\) 表示原始环境输出的空间,\(\mathcal{H} = \bigcup_{t \geq 0} (\mathcal{O} \times A)^t \times \mathcal{O}\) 表示交互历史的空间。MDP状态是历史在满足马尔可夫属性的抽象 \(\phi: \mathcal{H} \to S\) 下的像(Li等, 2006 (https://arxiv.org/html/2605.12755#bib.bib56);Givan等, 2003 (https://arxiv.org/html/2605.12755#bib.bib57))。要使单一的 \(\phi\) 足够,它所做的区分必须对智能体可能追求的每个目标都足够。在语言环境中,这失败了,因为重要的区分取决于目标。一个摘要策略可以安全地识别为相同的两个历史,必须被结账策略区分开,反之亦然。任何细到足以跨所有目标是马尔可夫的 \(\phi\) 都会趋向于 \(\mathcal{H}\) 上的恒等映射,而任何更粗的 \(\phi\) 都是特定于目标的。因此,有用的抽象不是单一的 \(\phi\),而是由目标索引的族 \(\{\phi_g\}_{g \in \mathcal{G}}\)(Abel等, 2018 (https://arxiv.org/html/2605.12755#bib.bib58);Andrychowicz等, 2017 (https://arxiv.org/html/2605.12755#bib.bib59);Schaul等, 2015 (https://arxiv.org/html/2605.12755#bib.bib60)),MDP形式没有提供在运行时选择一个的机制。
**状态空间一旦变化,其余也随之而去。** 随目标变化的状态空间使转移核 \(T: S \times A \to \Delta(S)\) 作为数学对象未定义,因为其定义域和陪域不是固定的集合。这不是更多数据可以解决的问题;函数逼近需要一个目标对象来逼近,但这里没有。每个构建在 \(T\) 上的构造(包括价值函数、贝尔曼备份和策略梯度(Sutton等, 1998 (https://arxiv.org/html/2605.12755#bib.bib51);Williams, 1992 (https://arxiv.org/html/2605.12755#bib.bib54)))都继承了同样的差距。终止标准也面临同样的缺失,因为目标是与任务一起提供的,而不是由环境提供的,原始输出流中没有任何信号表明任务何时完成。
**可能有两种回应,但都行不通。** 固定一个最精细的 \(\phi\) 并将结果空间视为真实做法,正是POMDP松弛所做的(Kaelbling等, 1998 (https://arxiv.org/html/2605.12755#bib.bib55);Young等, 2013 (https://arxiv.org/html/2605.12755#bib.bib36);Murphy等, 2000 (https://arxiv.org/html/2605.12755#bib.bib61)),但其滤波方程预设的正是存在疑问的 \(S\) 和 \(T\)。完全跳过 \(\phi\),让神经网络直接操作原始历史,在实践中有效且是语言智能体的主导方法(Yao等, 2022 (https://arxiv.org/html/2605.12755#bib.bib6);Wang等, 2023a (https://arxiv.org/html/2605.12755#bib.bib26)),但它无法恢复任何可以在其上定义转移、价值或进度的分析对象。
**四个缺失的输入。** 前面的论证揭示了MDP分析需要但语言环境不提供的四个输入:
1. **状态空间。** 一个集合 \(S\),策略、价值和转移在其上定义。没有固定的 \(S\) 存在,因为有用的抽象是由目标索引的。
2. **观察到状态的映射。** 一个将每个新观察转化为状态更新的函数。没有单一的 \(\phi\) 能跨目标工作。
3. **认证的转移。** 元组 \((s, a, s')\),其有效性经过检查,而不仅仅是假设时间相邻。没有共享的 \(S\),就没有可以表达它们的空间。
4. **终止标准。** 状态空间上的一个谓词,指示任务完成。语言环境不发出这样的信号;目标是与任务一起提供的,而不是由环境提供的。
## 3 方法:以状态为中心的决策过程
我们提出**以状态为中心的决策过程**(State-Centric Decision Process, SDP),这是一个运行时框架,通过让智能体在行动过程中逐谓词地构建四个缺失的输入来提供它们。构建的状态不是观察,不是观察的摘要,也不是潜在向量。它们是自然语言谓词,智能体在行动之前承诺的,每个谓词描述世界在某个未来步骤应该呈现的样子。由此产生的轨迹恰好携带了语言环境不提供的东西:一个由任务填充的状态空间,一个从观察到状态更新的映射,其有效性经过检查的转移,以及一个基于目标的终止测试(图1 (https://arxiv.org/html/2605.12755#S3.F1))。
### 3.1 以状态为中心的决策过程
该框架基于在状态空间 \(\Sigma\) 上操作的四个操作符,形式化如下。
**定义1(以状态为中心的决策过程)。** 一个SDP是一个元组 \((\Sigma, A, \mathcal{O}, \mathcal{T}, g, \textsc{Propose}, \textsc{Realize}, \textsc{Validate}, \textsc{Replan})\),其中 \(\Sigma\) 是 \(\mathcal{O}\) 上的自然语言谓词空间,\(A\) 是动作空间,\(\mathcal{O}\) 是原始环境输出空间,\(\mathcal{T}\) 是执行过程中累积的认证轨迹空间,\(g \in \Sigma\) 是与任务一起给出的目标谓词。四个函数是:
\[
\begin{aligned}
\textsc{Propose}: &\Sigma \times \Sigma \to \Sigma, \quad (s_t, g) \mapsto \hat{s}_{t+1}, \tag{1} \\
\textsc{Realize}: &\Sigma \times \Sigma \to A, \quad (s_t, \hat{s}_{t+1}) \mapsto a_t, \tag{2} \\
\textsc{Validate}: &\Sigma^* \times \mathcal{O} \to \mathbb{N}, \quad (\hat{s}_{t+1}, \ldots, \hat{s}_{n};\, o) \mapsto k, \tag{3} \\
\textsc{Replan}: &\Sigma \times \Sigma \times \mathcal{T} \to \Sigma^*, \quad (s_t, g, \tau_t) \mapsto (\hat{s}_{t+1}, \ldots, \hat{s}_{n}). \tag{4}
\end{aligned}
\]
Propose(公式 (1))从当前状态和目标设定下一个目标。Realize(公式 (2))选择一个动作以使目标成立。Validate(公式 (3))接收产生的观察,并返回从 \(\hat{s}_{t+1}\) 开始的连续目标数量 \(k \ge 0\),该观察满足这些目标,其中 \(k=0\) 意味着即时目标未满足。Replan(公式 (4))在当前计划无法恢复时,从当前状态到目标生成一个新的目标序列。这里 \(n\) 是当前计划长度。通过设计,只有Validate消耗原始观察;Propose和Realize完全在 \(\Sigma\) 上操作,因此目标反映了智能体的意图,而不是对环境呈现的任何事物的反应。正常循环中的三个操作符每个只读取局部输入,从不读取先前的历史。Replan是唯一的例外,它接收 \(\tau_t\) 作为当正常循环无法推进时调用的恢复机制。这种局部性产生了马尔可夫属性(命题1 (https://arxiv.org/html/2605.12755#Thmproposition1))。
**在状态上优化,而非动作。** 定义1 (https://arxiv.org/html/2605.12755#Thmdefinition1) 重新组织了决策问题。反应式智能体每一步求解 \(a_t^* = \arg\max_{a \in A} P(\text{success} \mid h_t, a)\),以 \(A\) 作为决策空间。SDP 将**状态计划**作为决策变量,将问题分解为两个耦合阶段:相似文章
上下文收集决策过程:用于智能体搜索的POMDP框架
本文引入了上下文收集决策过程(CGDP),这是一个用于建模LLM智能体搜索行为的POMDP框架,提出了能够提升多跳推理能力并降低Token消耗且不影响性能的干预措施。
我想分享一个构建智能体的更新方法论。[P]
介绍Spice,这是一个开源决策层,充当Claude Code和Codex等执行智能体之上的“大脑”,实现上下文感知的任务委派和结构化决策。
SDOF:以状态约束调度驯服多智能体编排中的对齐代价
SDOF是一个将多智能体执行视为约束状态机的框架,通过在线RLHF专用意图路由器和状态感知调度器强制执行业务流程阶段约束,在支持6000多家企业的招聘系统中实现了86.5%的任务完成率。
语言模型代理的自我编程执行
本文介绍了自我编程执行(SPE),这是一种代理架构,其中语言模型生成其自身的编排程序,而非依赖固定的外部框架。文章提出了“Spell”,一种基于 Lisp 的语言,支持自我编辑和重新求值,并展示了前沿模型能够利用该方法成功执行代理任务。
什么是 MDP?我们该如何求解?
本文通过一个关于大学生日常决策的教学示例,解释了马尔可夫决策过程(MDP)的基础知识,这是深度强化学习中的核心框架。