上下文、推理与层次结构:对抗性POMDP中复合LLM智能体设计的成本-性能研究

arXiv cs.AI 论文

摘要

在对抗性POMDP(CybORG CAGE-2)中对复合LLM智能体设计进行了一项受控研究,系统性地在五个模型系列中变化上下文、推理与层次结构。主要发现:程序化状态抽象每token产生巨大回报,无推理工具的层次结构实现了最佳绝对性能,并且上下文工程比深度推理更具成本效益。

arXiv:2605.16205v1 公告类型:新\n摘要:在对抗性、部分可观测的序贯环境中部署复合LLM智能体需要处理几个设计维度:(1) 智能体看到什么,(2) 它如何推理,以及 (3) 任务如何在组件之间分解。然而,从业者缺乏关于哪些设计选择能提升性能而哪些仅是增加推理成本的指导。我们提出了一项关于CybORG CAGE-2中复合LLM智能体设计的受控研究,CybORG CAGE-2是一个建模为部分可观测马尔可夫决策过程(POMDP)的网络安全防御环境。奖励是非正的,因此所有配置都在故障缓解模式下运行。我们的评估涵盖五个模型系列、六个模型和十二种配置(3,475个回合),并进行了token级成本核算。我们变化了上下文表示(原始观测 vs. 具有压缩历史的确定性状态跟踪层)、推理(自我提问、自我批评和自我改进工具,以及可选的思维链提示)和层次分解(单一的ReAct vs. 委托给专门的子智能体)。我们发现:(1) 程序化状态抽象提供了每token花费的最大回报(RPTS),与原始观测相比,平均回报提高了76%。(2) 在层次结构中分布推理工具相对于单独使用层次结构会降低所有五个模型系列的性能,平均回报最多差3.4$\\times$,同时使用的token量多1.8-2.7$\\times$。我们将这种破坏性模式称为推理级联。(3) 无推理的层次分解在大多数模型上实现了最佳绝对性能,并且上下文工程通常比推理更具成本效益。这些发现为结构化对抗性POMDP提出了一个设计原则:投资于程序化基础设施和清晰的任务分解,而不是在每个智能体上进行更深入的推理,因为这些策略在结合时可能会相互干扰。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:40

# 背景、推理与层级:对抗性POMDP中复合LLM智能体设计的成本-性能研究 来源:https://arxiv.org/html/2605.16205 \(2026\) ###### 摘要。在对抗性、部分可观测的序列化环境中部署复合LLM智能体,需要权衡几个相互影响的设计维度:(1) 智能体看到了什么,(2) 它如何进行推理,以及 (3) 任务如何在组件之间进行分解。然而,实践者缺乏关于哪些设计选择能提升性能,而哪些仅仅增加了推理成本的指导。我们针对CybORG CAGE-2(一个建模为部分可观测马尔可夫决策过程(POMDP)的网络防御环境)中的复合LLM智能体设计进行了受控研究。奖励为非正数,因此所有配置都在一种“失败缓解”模式下运行,且错误会随时间累积。我们的评估涵盖五个模型家族、六个模型和十二种配置(共3,475个情节),并进行了令牌级别的成本核算。我们系统地变化了上下文表示(原始观测 vs. 一个确定性的、程序化的环境状态追踪层,附带压缩历史)、推理(自我提问、自我批判和自我改进工具,以及可选的思维链提示)以及层级分解(单体ReAct vs. 委派给专门子智能体)。我们发现:(1) 程序化状态抽象带来了每令牌最高的性能回报(RPTS),相比原始观测,平均回报提升了高达76%。(2) 对于所有五个模型家族,将推理工具分布到层级中,会降低相比纯层级的性能,平均回报最多恶化3.4倍,同时令牌消耗增加1.8-2.7倍。我们将这种破坏性交互模式称为*推理级联*(deliberation cascade)。(3) 对于大多数模型,不使用推理工具的层级分解实现了最佳的绝对性能,而上下文工程通常比推理更具成本效益。这些发现提出了结构化对抗性POMDP的一个设计原则:投资于程序化基础设施和清晰的任务分解,而不是更深入的每个智能体推理,因为当这些策略结合时可能会相互干扰。复合AI系统,LLM智能体,层级智能体架构,工具增强型语言模型,上下文工程,推理时扩展,令牌效率,成本-性能权衡,对抗性POMDP,自主网络防御,灾难性失败 ††copyright:rightsretained††journalyear:2026††doi:10.1145/3786335.3813149††conference:ACM人工智能与智能体系统会议;2026年5月26-29日;美国加利福尼亚州圣何塞††booktitle:ACM人工智能与智能体系统会议(ACM CAIS '26),2026年5月26-29日,美国加利福尼亚州圣何塞††isbn:979-8-4007-2415-2/26/05††ccs:计算方法 人工智能††ccs:计算方法 部分可观测马尔可夫决策过程††ccs:计算方法 多智能体系统††ccs:计算方法 智能体††ccs:安全与隐私 网络安全## 1.引言

实践者通过组合三个设计维度来构建复合LLM智能体:*上下文工程*(Karpathy,2025 (https://arxiv.org/html/2605.16205#bib.bib8))(智能体看到什么)、*推理*(deliberation)(推理深度)和*层级分解*(hierarchical decomposition)(任务分布)。虽然通常假设这些选择是累加性的,但在对抗性、部分可观测的序列化环境中,它们会以破坏性的方式相互作用。我们通过在CybORG CAGE-2 POMDP中保卫网络的复合LLM智能体,对这些交互进行了受控实证研究。通过系统地消融五个模型家族和六个模型中的上下文、推理和层级,我们同时衡量了任务性能和令牌成本,揭示了*智能体看到什么*是一个比*它思考多深*更可靠的杠杆:确定性的程序化上下文以近乎零的边际成本带来巨大收益,而将推理分布在层级中通常会在消耗更多令牌的同时降低性能。我们将这种失败模式称为*推理级联*(deliberation cascade)。虽然有限层级通常能实现最佳的*绝对*回报,但上下文工程提供了最佳的*每令牌回报*,使其成为最具成本效益的首选投资。

##### 实证差距

三个差距推动了这项工作。(1) 多智能体研究强调*拓扑结构*(连接方式)而非内部智能体设计(Kim et al.,2025 (https://arxiv.org/html/2605.16205#bib.bib10)),留下了内部配置与层级之间相互作用的未充分探索。(2) 虽然上下文工程被广泛认可(Karpathy,2025 (https://arxiv.org/html/2605.16205#bib.bib8)),但关于特定上下文组件在序列化设置中成本-性能权衡的受控证据有限。(3) 推理和多智能体文献仍然脱节,我们表明将两者结合可能会引入单独使用时不可见的失败模式。

##### 研究问题

我们的核心问题是:哪些复合智能体设计维度能为每投入令牌带来性能提升,并且当它们在多智能体层级中组合时如何相互作用?我们将其分解为:
RQ1(上下文):程序化抽象相比于原始观测的价值;
RQ2(推理):推理工具在单体vs.层级智能体中的影响;
RQ3(组合):何时分解有帮助或有害。

##### 贡献

我们在架构设计和系统优化的交叉点上提出了四个贡献。
(1) **成本有效的上下文工程**。我们表明,对于六个模型中的四个,确定性的状态追踪层相比原始观测将累积惩罚降低了52-76%,以近乎零的边际成本主导了原始观测上下文配置。
(2) **识别推理级联**。我们证明,在所有六个模型中,在层级中启用推理工具会使性能下降(最多**3.4倍**更差的回报),同时令牌成本翻倍,产生级联的不确定性。
(3) **三轴帕累托分析**。我们对五个模型家族(72对,3,475个情节)进行了上下文、推理和层级的受控消融,构建了成本-性能前沿,一致地将程序化上下文置于有效前沿上。
(4) **多模型验证**。我们表明,虽然定性效应(上下文有帮助,分布式推理有害)是稳健的,但定量幅度有所变化,验证了多模型评估对于复合AI设计的必要性。

##### 范围

本文是一项静态架构设计空间研究:它询问在部署时,在任何运行时自适应之前,应该构建什么样的复合智能体架构。我们将声明限定在结构化对抗性POMDP中。

## 2.背景与问题定义

我们研究在对抗性、部分可观测的序列化决策问题中运行的复合LLM智能体,并联合评估(1)任务回报和(2)令牌成本的设计。智能体架构和多维度消融研究反映了我们使用LLM智能体解决CAGE-2的工程阶梯:我们从原始环境观测开始,然后引入确定性状态追踪和上下文工程以使观测可操作化,随着上下文增长将任务分解为层级,最后添加推理工具以促进每个智能体内更好的决策。本节定义了环境和目标,指定了执行框架和初始化范围,并确立了令牌作为成本原语。

##### CybORG CAGE-2

我们在CybORG CAGE-2(TTCP CAGE挑战工作组,2022 (https://arxiv.org/html/2605.16205#bib.bib4); Standen et al.,2021 (https://arxiv.org/html/2605.16205#bib.bib16))上进行评估,这是一个模拟网络防御的对抗性POMDP。一个防御者保护一个13主机的网络,抵御一个遵循脚本化、非自适应多阶段杀伤链(Kiely et al.,2023 (https://arxiv.org/html/2605.16205#bib.bib9))的攻击者,时间跨度T=30步。攻击者不响应防御者的行动,但主机属性、进程和杀伤链的进展在不同运行中随机变化。防御者从五个行动(Monitor, Analyse, Remove, Restore, Decoy)中选择,具有不对称成本。奖励rt ≤ 0惩罚了妥协和干预;我们报告情节回报G = ∑Tt=1 rt(越接近零越好)。部分可观测性要求在噪声指标下维持态势感知。(详见附录H (https://arxiv.org/html/2605.16205#A8)。)

##### 配置驱动的ReAct框架

智能体遵循ReAct(Yao et al.,2023 (https://arxiv.org/html/2605.16205#bib.bib17))循环,在推理和工具使用之间迭代,直到发出答案。我们将可重用的ReAct智能体引擎(I/O、解析)与声明式YAML“个性”配置(提示、工具)分开。这种分离确保了可重复性,并允许将架构变体定义为配置更改而不是代码修改。

##### 无知初始化

为了隔离架构效应与领域工程,我们在t=0时施加一个无知范围。智能体仅接收一句话的角色指令和一个紧凑的动作参考表。不提供网络拓扑、攻击者杀伤链细节、主机价值分配或防御启发式信息,提示中从不提及环境名称。性能提升来自于模型内部知识、运行时上下文和推理。模型的内部知识可能包括预训练期间获取的关于CAGE-2的信息。为了最小化这种暴露的影响,运行时没有提供特定于基准的线索。然而,预训练的影响可能仍然存在。所有LLM接收相同的提示和工具集。

##### 令牌作为成本原语

我们使用每个情节的令牌总数(提示+完成)作为主要成本指标,直接映射到计费使用量并与延迟相关。我们使用原始令牌计数,因为它们不依赖于供应商定价。附录F (https://arxiv.org/html/2605.16205#A6)按模型和配置报告了提示/完成拆分,以进行定价加权的重新解释。我们对所有LLM调用进行检测,汇总整个计划器(Planner)和子智能体的提示和完成令牌。将回报与令牌成本配对,使我们能够解决核心评估问题:哪些设计选择能带来最大的**每令牌回报**(RPTS),哪些会推高成本。

表1.系统模块化与配置层。智能体架构建立在四个功能支柱之上,从系统的顶层决策结构向下到其内部推理机制进行排序。

## 3.复合智能体系统设计

我们的系统将确定性骨干与LLM决策引擎相结合,跨越四个层(表1 (https://arxiv.org/html/2605.16205#S2.T1))。(1) **层级层(hierarchy layer)**允许计划器(Planner)通过严格的JSON合约将任务委派给分析员(Analyst)和行动选择器(ActionChooser)子智能体。(2) **确定性基础设施层(deterministic infrastructure layer)**维护一个原始环境模型、交互历史,并在没有模型调用的情况下验证行动。(3) **上下文工程层(context engineering layer)**包括注入,这些注入扩展用户提示,并通过将环境模型状态和行动历史转换为结构化的摘要(如{network_status})来连接它们。(4) **推理层(reasoning layer)**遵循ReAct模式(Yao et al.,2023 (https://arxiv.org/html/2605.16205#bib.bib17)),可选地在ReAct循环内执行推理。

##### 决策周期

在T=30步的每一步,智能体协调器(Agent Coordinator)接收原始CybORG观测,更新确定性环境模型,并将选定的上下文包插入到计划器提示中。然后它启动一个新的步骤级计划器实例(step-level Planner instance),验证发出的行动,在输出无效时重试,并将验证后的行动提交给环境(图1 (https://arxiv.org/html/2605.16205#S3.F1))。步骤级实例化确保跨步骤没有隐藏的对话状态累积。所有跨步骤连续性都在确定性状态结构和编译上下文中明确表达。

##### 可靠性机制

在对抗性的序列环境中,每一个无效行动都是一个浪费的步骤,在此期间攻击者不受阻碍地推进。因此,我们将可靠性视为承重基础设施,实现以下功能:(1) **行动验证和重试**:计划器的输出针对CybORG行动模式进行基于正则表达式的验证解析;无效输出会触发最多三次重试,并将解析错误作为反馈注入。(2) **安全回退**:如果所有重试均失败,系统默认执行Monitor行动,保持可观测性而不冒误用干预的风险。(3) **子智能体输出验证**:行动选择器的JSON经过分层解析(直接解析→规范化→可选修复提示)。任何修复调用都计入令牌核算。这些机制确保了格式合规性;它们被设计为在调用时最小化损害。

### 3.1. 层1:层级分解

系统可以以两种方式运行:要么作为直接发出环境行动的**单体计划器(monolithic Planner)**,要么作为固定的三智能体层级,与Kim等人(Kim et al.,2025 (https://arxiv.org/html/2605.16205#bib.bib10))描述的集中式多智能体系统(MAS)拓扑一致,在该拓扑中,一个编排者通过结构化通信协调有边界的子智能体。三智能体拆分分离了三个功能:战略决策、局部感知和有边界的行动候选排序,以适应不断增长的上下文大小。**计划器(Planner)**保留对环境行动的最终权力,但可以委派给两个输出为建议性质的子智能体。**分析员(Analyst)**通过将单个主机的当前状态与有效基线进行比较来评估该主机,并返回结构化的JSON评估(状态、异常、疑似被入侵)。**行动选择器(ActionChooser)**接收计划器的态势摘要,并且在可用时还接收分析员的报告,返回一个最多包含三个候选行动的排名列表,附带有置信度标签,格式为严格的JSON。子智能体不能发出环境行动。这样拆分的目的是通过约束每个子智能体产生的内容来简化计划器的决策。所有三个智能体共享相同的引擎-个性分离逻辑,确保观察到的层级效应反映的是角色分解。

### 3.2. 层2:确定性环境模型

为了提供上下文中的态势感知,系统维护一个完全确定性的环境模型,该模型将原始CybORG观测转换为结构化的网络状态描述和行动历史。关键在于,该模型完全基于智能体自身的观测和过去行动计算得出。系统在首次观测时存储环境**基线状态(baseline state)**,并创建一个按主机索引的数据结构。这一层嵌入了领域信息的观测处理。形成该模型的工程选择塑造了智能体感知到的内容。尽管该层不规定任何行动选择决策(无威胁标准,无主机优先级,无响应启发式),它仍然带有可能影响智能体推理的归纳偏差。

##### 动态环境模型

模型数据结构包括一个字典,其中每个主机获得一个**状态(status)**:{baseline, changed, unknown, analysed at step n},以及一个**历史记录(history record)**,这是一个有序的、箭头分隔的、应用于每个主机的所有行动记录(例如,Analyse→Remove→Restore)。这个简洁的单主机记录为计划器提供了额外的干预记忆,而无需解析完整的抄本。

##### 模型更新 m

相似文章

@rohanpaul_ai: 斯坦福新论文指出,在同等推理预算下,单个LLM通常比多个……更好地解决多跳问题

X AI KOLs Timeline

一项新的斯坦福论文显示,在同等推理token预算下,单个LLM在多跳推理任务上通常优于多智能体系统,而多智能体设置带来的提升往往来自更多计算而非架构优势。该论文利用数据处理不等式解释为什么交接中的信息丢失会损害多智能体性能,并指出上下文质量是多智能体系统能够提供益处的关键因素。

多并非总是更好:大语言模型智能体搭建中的跨组件干扰

arXiv cs.AI

本文挑战了“向大语言模型智能体添加更多搭建组件总能提升性能”的假设,通过系统实验证明,跨组件干扰往往会导致性能下降。研究发现,在各种模型规模下,更简单、针对特定任务的组件子集通常优于配备齐全的“全能型”智能体。

@omarsar0: // LLM 智能体中的记忆诅咒 //(建议收藏)过长的历史记录显然会导致智能体性能下降,因为它们变得越来越…

X AI KOLs Following

本研究论文揭示了 LLM 智能体中的“记忆诅咒”现象,证明扩大的上下文窗口会通过削弱前瞻性意图,系统性地破坏多智能体社会困境中的合作行为。作者表明,通过定向微调、合成记忆净化以及减少显式思维链(Chain-of-Thought)推理,可有效缓解此类行为衰退。

潜在智能体:一种内化多智能体辩论的后训练方法

Hacker News Top

波士顿大学的研究人员提出了 IMAD(内化多智能体辩论),这是一个两阶段微调框架,能够将多智能体辩论过程提炼至单个 LLM 中,在匹配甚至超越显式多智能体辩论性能的同时,实现最高 93% 的 token 用量缩减。该研究还揭示了激活空间中存在特定于智能体的子空间,从而可以对内化推理行为进行有效控制,包括抑制恶意智能体的影响。