INFRAMIND:基础设施感知的多智能体编排
摘要
InfraMind 引入了一个基础设施感知的多智能体大语言模型编排框架,利用强化学习根据实时系统负载动态选择模型和拓扑结构,在高负载下实现了高达 7 倍的延迟降低和 99.9% 的 SLO 达标率。
arXiv:2606.11440v1 公告类型:新
摘要:现有的多智能体大语言模型编排方法,从暴力集成到学习型路由器,都是根据任务和模型特征选择模型和拓扑结构。然而,这些方法并未考虑推理基础设施的运行时状态。在共享 GPU 集群上,当存在并发负载时,这种基础设施盲点会导致系统性的资源利用不足:偏好的模型会积累深度请求队列,而同样有能力的替代模型却闲置。在多智能体管线中,每个查询会触发多个顺序模型调用,这些延迟会进一步在每个下游步骤中累积。弥补这一差距具有挑战性,因为相关的基础设施信号(队列深度、KV 缓存压力、延迟)是动态且嘈杂的,而且它们必须驱动三种不同的决策:规划、每一步的路由和调度。我们提出了 INFRAMIND,一个使整个多智能体堆栈具备基础设施感知能力的框架。一个基础设施感知的规划器根据实时系统负载和剩余预算来调整拓扑和角色选择,在高负载时倾向于简单图,在低负载时倾向于更丰富的图。然后,一个基础设施感知的执行器在每个智能体步骤观察每个模型的队列深度、缓存利用率和响应延迟,以决定调用哪个模型以及推理的深度;一个预算感知的调度器进一步对每个模型的队列进行重排序,使得紧急请求优先得到服务。我们将该问题建模为层次化约束马尔可夫决策过程,并通过强化学习进行端到端求解,系统自动学习在质量与延迟之间取得平衡。在五个基准测试中,INFRAMIND 在低负载下相比之前基线实现了高达 7.6 个百分点的准确率提升和高达 7 倍的延迟降低,在高负载下维持了高达 99.9% 的 SLO 达标率,而所有基线在同样条件下都降至 50% 以下。
查看缓存全文
缓存时间: 2026/06/11 13:47
# InfraMind:基础设施感知的多智能体编排
来源:https://arxiv.org/html/2606.11440
Ahasan Kabir, Jiaqi Xue, Mengxin Zheng, Qian Lou
中佛罗里达大学
\{ahasan\.kabir, jiaqi\.xue, mengxin\.zheng, qian\.lou\}@ucf\.edu
###### 摘要
现有的多智能体LLM编排方法,从暴力集成到学习型路由器,都是基于任务和模型特征来选择模型和拓扑结构。然而,这些方法并未考虑服务基础设施的运行时状态。在共享GPU集群上承受并发负载时,这种*基础设施盲视*会导致系统性的资源利用不足:偏好的模型会积累很深的请求队列,而能力相当的替代模型却处于空闲状态。在多智能体流水线中(每个查询会触发多个连续的模型调用),这些延迟会进一步在每一步下游累积。弥补这一差距颇具挑战性,因为相关的基础设施信号(队列深度、KV缓存压力、延迟)是动态且带噪声的,并且必须驱动三项不同的决策:规划、每步路由和调度。我们提出了InfraMind,一个使整个多智能体堆栈具备基础设施感知能力的框架。一个感知基础设施的规划器会根据实时系统负载和剩余预算来调整拓扑和角色选择,在拥塞时偏向于更简单的图,在低负载时采用更丰富的图。一个感知基础设施的执行器会在每个智能体步骤观察按模型划分的队列深度、缓存利用率和响应延迟,以决定调用哪个模型以及推理的深度;一个预算感知的调度器进一步重新排序每个模型的队列,使紧急请求优先得到服务。我们将这一框架建模为分层约束MDP,并通过强化学习进行端到端求解,系统自动学会在质量与延迟之间取得平衡。在五个基准测试上,InfraMind在低负载下相比先前基线精度提升高达\+7.6个百分点,延迟降低高达7倍;在高负载下维持高达99.9%的SLO达标率,而所有基线在高负载下均降至50%以下。
## 1 引言
多智能体LLM系统(多个模型通过辩论、评审或顺序链进行协作)是处理复杂任务的主流范式(Wu et al., 2024; Hong et al., 2023; Li et al., 2023),近期工作聚焦于学习编排本身:调用哪些模型、采用何种拓扑结构、赋予什么角色(Wang et al., 2024a; Zhuge et al., 2024; Yue et al., 2025)。然而,所有现有方法仅依据静态任务特征选择模型,忽视了服务基础设施的*运行时状态*。随着多智能体工作负载迁移到共享GPU集群(通过vLLM和SGLang服务于池化开放权重模型),这成为一个关键的盲点。一个单独来看“快”的模型可能已有数百个请求排队,而一个空闲的替代模型却可以即时响应;在多智能体流水线中,任何一步的瓶颈都会延迟所有下游智能体。我们称这种失效模式为*基础设施盲视*。
图1展示了基础设施盲视的症状。我们在泊松负载下对五个模型的共享池进行MasRouter(当前最先进的任务自适应路由器)的性能剖析,观察到三种在不同负载区间反复出现的失效模式。首先,静态路由导致极端的负载不均:偏好的小模型累积超过130个请求的队列,而能力相当的大模型几乎闲置(图1a)。其次,这种不均直接转化为可避免的延迟:拥塞模型对查询的端到端延迟超过30秒,而空闲替代模型可在10秒内回答(图1b)。第三,在低负载下失效模式反转:大模型GPU容量67%未被使用,本可通过更深度推理获得的更高质量被白白浪费(图1c)。在这两种负载区间,编排器在训练时信息机制中做出的路由决策与运行时条件根本脱节。
参考图标题图1:负载无关路由的实际表现(MasRouter在MATH上,泊松到达)。(a) 每个模型的队列深度。(b) 每个模型的端到端延迟。(c) 低负载下大模型GPU利用率。
解决这些问题很困难,原因有三。第一,*规划推理结构*(拓扑、智能体数量、角色)需基于当前运行时状态,而基础设施状态是动态的,并在执行过程中变化。先前工作回避了这一点,仅凭任务特征决定结构。第二,*每一步选择调用哪个模型以及它的推理深度*是一个细粒度的决策,需基于嘈杂、快速变化的运行时信号(队列深度、KV压力、延迟)。先前的路由器忽略这些信号:仅根据查询选择模型,导致偏好模型过载(图1a,b),且从不根据资源可用性调整推理深度,使得闲置容量未得到利用(图1c)。第三,*对同时到达的多个多智能体步骤进行优先级排序*很困难,因为每个步骤有其自身的剩余预算和紧迫性。先前工作默认采用先来先服务(FCFS),忽略这两者,导致紧预算请求在宽松请求之后等待,错过服务等级目标(SLO)。这三个决策也是耦合的:任一层的选择都会改变其他层必须响应的运行时状态。逐层调整的启发式方法因此无法利用跨层交互。
参考图标题图2:InfraMind读取实时系统指标,绕过拥塞,同时根据当前容量调整推理深度(Flash/Concise/DeepThink)。
我们提出InfraMind,在每个决策点上设置一个基础设施感知组件。在*查询到达时*,一个基础设施感知的*规划器*根据当前负载摘要和剩余预算来调整拓扑、智能体数量和角色选择,在系统拥塞时偏向简单图,在有容量时采用更丰富的图。在*每个智能体步骤*,一个基础设施感知的*执行器*读取每个模型的队列深度、KV缓存利用率和端到端延迟,然后联合选择目标模型和推理深度(Flash / Concise / DeepThink)。图2将此与负载无关的路由器进行对比:基线(左)仅根据质量选择并将请求堆叠到同一个偏好的大模型上,而我们的执行器(右)发现大模型队列已饱和,将调用重定向到一个空闲的小模型,并投入DeepThink推理,利用绕过队列节省的时间来弥补小模型较低的标称质量,从而在可比精度和更低的延迟下输出答案。在*每个模型的队列*,一个预算感知的*最早截止时间优先调度器*重新排序待处理请求,使紧预算查询不被宽松查询阻塞。这三个组件被建模为分层约束MDP,并通过强化学习进行端到端训练,自动发现跨负载水平的质量-延迟权衡。
贡献。(1) 我们识别出*基础设施盲视*是多智能体LLM系统的一个系统性失效,并通过实验进行量化(§1)。(2) 我们提出InfraMind,第一个端到端基础设施感知的多智能体编排器,包括感知基础设施的规划器、执行器和EDF调度器,在共享预算约束下联合训练为一个分层强化学习策略(§3, §4)。(3) 在五个基准测试上,InfraMind在低负载下相比最强基线精度提升高达\+7.6个百分点,延迟降低高达7倍;在高负载下维持高达99.9%的SLO达标率,而所有基线在高负载下均降至50%以下(§5)。
## 2 相关工作
#### 多智能体LLM编排。
多智能体系统通过以结构化协作拓扑编排多个LLM实例来提升任务性能。这一领域的研究逐步向编排层引入更多智能,但一个关键维度——运行时基础设施状态——仍然完全未被涉及。
三个代表性系统展示了任务级复杂度的逐步提升。**混合智能体(Mixture-of-Agents, MoA)** (Wang et al., 2024a) 并行运行池中每个模型,并通过固定聚合器进行综合,提供零路由智能:最慢的模型成为每个响应的瓶颈,任何单个模型上的队列拥塞都会降低整体系统性能。**GPTSwarm** (Zhuge et al., 2024) 将多智能体协作建模为有向图,并通过REINFORCE学习边权重,但图在测试时被冻结:训练后边权重固定,因此系统无法在部署时偏好模型发生拥塞时重新路由。**MasRouter** (Yue et al., 2025) 引入了迄今为止最先进的任务自适应编排:一个基于VAE的级联控制器,联合从查询嵌入中确定拓扑、智能体数量、角色分配和每个角色的模型,从而实现任务特定的路由。然而,其决策完全基于静态任务特征,没有机制区分空闲模型和饱和模型,并且无论预算紧或松都采用固定提示策略。
#### LLM路由与成本感知服务。
在多智能体场景之外,越来越多的研究工作涉及单模型路由的成本和质量。**RouteLLM** (Ong et al., 2024) 学习一个基于质量的路由器,根据预测的难度将查询导向强模型或弱模型,在不大幅损失质量的情况下节省成本。**TREACLE** (Zhang et al., 2024) 将其扩展到预算约束的LLM级联,联合进行模型和提示选择。**R2-Router** (Xue et al., 2026) 通过融入推理感知的难度信号来选择模型,进一步优化了查询条件路由。然而,这些系统运行在单轮、单模型调用上;它们不处理多步骤、多智能体的工作流,其中每个步骤的路由决策会影响下游智能体的质量和延迟。
在服务基础设施方面,**vLLM** (Kwon et al., 2023) 引入了PagedAttention以实现高效的KV缓存管理,并支持连续批处理、基于优先级的调度和通过Prometheus端点的详细遥测。**Sarathi-Serve** (Agrawal et al., 2024) 通过分块预填充进一步优化预填充-解码调度。这些系统暴露的正是基础设施感知编排器所需的信号(队列深度、缓存利用率、每请求延迟),但它们优化的是*单个模型内部*的推理,不进行跨模型路由决策。InfraMind位于两者交叉点:它消耗服务系统暴露的遥测信息,以做出这些系统未做的跨模型路由决策。
表1:每个编排系统在决策时和压力下的行为表现。
## 3 问题形式化
多智能体编排涉及两个时间尺度上的决策:*使用什么推理结构*(拓扑、角色、智能体数量),主要根据查询语义,在每次查询时选择一次;以及*如何执行每一步*(哪个模型、多少推理),在快速变化的每模型队列、延迟和剩余预算下重复选择。我们将其形式化为一个分层约束马尔可夫决策过程(Constrained MDP, CMDP)(Altman, 2021),其中两个层级都看到基础设施状态,但粒度不同。
#### 状态。
考虑在共享GPU上的\(N\)个LLM服务\(\mathcal{M}=\{m_1, \ldots, m_N\}\)和提示策略\(\mathcal{S}=\{\text{Flash}, \text{Concise}, \text{DeepThink}\}\)。一个查询\(q\)到达时带有时间预算\(\beta\)。在每个智能体步骤\(k\),执行器观察到:
\[
s_k = \Big[ \underbrace{\mathbf{e}_q, \mathbf{e}_{r_k}}_{\text{要解决什么}}, \quad \underbrace{b_k}_{\text{剩余时间}}, \quad \underbrace{\mathbf{d}^{\text{queue}}, \mathbf{d}^{\text{e2e}}, \mathbf{d}^{\text{kv}}}_{\text{系统负载}} \Big] \quad (1)
\]
其中\(\mathbf{e}_q, \mathbf{e}_{r_k} \in \mathbb{R}^{384}\)是Sentence-BERT (Reimers and Gurevych, 2019)的查询和角色嵌入,\(b_k\)是归一化的剩余预算,\(\mathbf{d}^{\text{queue}}, \mathbf{d}^{\text{e2e}}, \mathbf{d}^{\text{kv}} \in \mathbb{R}^{N}\)是从vLLM的`/metrics`端点轮询的每个模型的队列深度、端到端延迟和KV缓存利用率。
#### 动作。
执行器选择一个联合动作\(a_k \in \{0, \ldots, N|\mathcal{S}|-1\}\),解码为模型\(m_k = \lfloor a_k / |\mathcal{S}| \rfloor\)和策略\(\sigma_k = a_k \bmod |\mathcal{S}|\)。
#### 目标。
我们最大化质量,同时满足延迟预算。设质量奖励\(R_k \in \{0,1\}\),成本\(C_k = \ell_k / \beta\)(步骤延迟占预算的比例):
\[
\pi^* = \arg \max_{\pi} \; \mathbb{E}_{\pi} \Big[ \textstyle\sum_{k} R_k \Big] \quad \text{s.t.} \quad \mathbb{E}_{\pi} \Big[ \textstyle\sum_{k} C_k \Big] \leq 1 \quad (2)
\]
一个单独的拉格朗日乘子\(\lambda\)将此约束转换为可学习的质量-延迟权衡:
\[
\mathcal{L}(\pi, \lambda) = \mathbb{E}_{\pi} \Big[ \textstyle\sum_{k} R_k - \lambda \cdot C_k \Big] + \lambda \quad (3)
\]
对偶更新(式(7),§4.4)在策略超支时驱动\(\lambda\)升高,在有松弛时降低,自动发现跨预算层级和负载水平的权衡。
#### 分层分解。
我们将策略拆分为一个**规划器**\(\pi_{\text{plan}}(\tau, K, \mathbf{r} \mid \mathbf{e}_q, \mathbf{z}_0)\),在\(t=0\)时从查询语义加上一个低维摘要\(\mathbf{z}_0 = [b_0, \mathbf{d}^{\text{queue}}, \mathbf{d}^{\text{e2e}}, \mathbf{d}^{\text{kv}}]\)选择拓扑\(\tau\)、智能体数量\(K\)和角色\(\mathbf{r}\);以及一个**执行器**\(\pi_{\text{exec}}(a_k \mid s_k)\),在每一步选择模型和推理策略。预算感知的**调度器**在各模型的队列相似文章
@anyscalecompute:大多数 Agent 框架解决了编排问题,却在基础设施方面完全未予解决。最新博文:面向生产的 AI…
Anyscale 发布了一篇技术指南,介绍如何使用 Ray Serve、MCP 和 A2A 协议部署面向生产环境的 AI Agent。文章针对常见的底层基础设施瓶颈,提出了一种解耦的微服务架构,支持 LLM、工具与 Agent 的独立扩缩容。
当云代理遇上设备代理:混合多智能体系统的经验教训
本文系统研究了结合云端LLM与端侧SLM的混合多智能体系统,揭示了任务依赖的最优架构,并挑战了“更多前沿算力总是能提升性能”的假设。
Orchestra-o1:全模态智能体编排
Orchestra-o1 是一个全模态智能体编排框架,支持在文本、图像、音频和视频等多种模态间进行高效的智能体协作。它引入了决策对齐群体相对策略优化(DA-GRPO),并在 OmniGAIA 基准测试中取得了最先进的性能。
MinT:用于训练和服务数百万LLM的托管基础设施
MinT 是一种托管基础设施系统,通过保持基础模型常驻并移动轻量级 LoRA 适配器,实现数百万个 LLM 的高效训练和服务,可跨模型架构、存储和策略管理进行扩展。
隐形编排者抑制保护行为并使权力持有者解离:多智能体LLM系统中的安全风险
本文对多智能体LLM系统中隐形编排的安全风险进行了实证研究,发现隐形编排者增加了解离并抑制了保护行为,且基于行为的评估不足以检测内部状态风险。