面向企业应用的多智能体系统可扩展定制与部署
摘要
本文提出一个统一框架,用于在企业环境中定制和部署基于LLM的多智能体系统,结合了持续预训练、微调和偏好优化的模型定制,以及使用推测解码和FP8量化的推理优化。在保持企业工作负载性能的同时,实现了4.48倍的吞吐量提升。
arXiv:2606.18502v1 公告类型:新
摘要:基于大型语言模型(LLM)的多智能体系统在复杂推理和任务执行上展现出强大性能,支持广泛的企业应用。然而,由于领域特定的定制需求以及智能体工作流中的高延迟和推理成本,生产部署仍面临挑战。我们提出一个统一框架,用于在实际环境中定制和高效部署多智能体系统。第一阶段是智能体模型定制,结合持续预训练、监督微调和偏好优化,使紧凑模型适应专业领域,同时保持强大的智能体能力。第二阶段是推理优化,集成推测解码和FP8量化以及目标校准,实现成本高效的服务,质量损失最小。在企业工作负载上,我们的框架实现了快速领域适应,吞吐量提升4.48倍,同时保持性能并提高长尾场景的鲁棒性。
查看缓存全文
缓存时间: 2026/06/18 05:45
# 面向企业应用的多智能体系统可扩展定制与部署 来源:https://arxiv.org/html/2606.18502 Paresh Dashore††,Shreyas Kulkarni∗,Uttam Gurram∗,Nadia Bathaee,Kartik Balasubramaniam,Genta Indra Winata,Sambit Sahu,Shi-Xiong Zhang AI Foundations,Capital One ###### 摘要 基于大语言模型(LLM)的多智能体系统在复杂推理和任务执行方面表现出强大性能,从而实现了广泛的企业应用。然而,由于领域特定的定制需求以及智能体工作流中的高延迟和推理成本,生产部署仍然具有挑战性。我们提出了一个统一的框架,用于在真实环境中对多智能体系统进行定制和高效部署。第一阶段是智能体模型定制,结合了持续预训练、监督微调和偏好优化,使紧凑模型适应特定领域,同时保留强大的智能体能力。第二阶段是推理优化,集成了推测解码和带有针对性校准的FP8量化,以在质量损失最小的情况下实现经济高效的服务。在企业工作负载中,我们的框架能够实现快速领域适应,吞吐量提升4.48倍,同时保持性能并提高在长尾场景下的鲁棒性。 # 面向企业应用的多智能体系统可扩展定制与部署 Paresh Dashore††††Equal contribution. †Corresponding author. Email: [email protected].,Shreyas Kulkarni∗,Uttam Gurram∗,Nadia Bathaee,Kartik Balasubramaniam,Genta Indra Winata,Sambit Sahu,Shi-Xiong Zhang AI Foundations,Capital One ## 1 引言 大语言模型(LLM)的进步推动了智能体应用的发展,包括工具调用(Shi 等人,2025;Xu 等人,2025;Chakraborty 等人,2026;Winata 等人,2026)和多智能体系统(Guo 等人,2024;Wu 等人,2024b)。通过将复杂任务分解为专门化的智能体,多智能体系统通常能比单智能体方法获得更高质量的输出。然而,协调多个LLM调用会带来显著的延迟和计算开销,使得在具有严格服务级别协议(SLA)要求的生产环境中部署变得困难。此外,对大模型的依赖增加了基础设施成本,并限制了延迟敏感、高容量应用的可扩展性,可能降低用户体验。 用户查询 → 理解器 → 规划器 → 评估器 → 安全? → 执行器 → 解释器 → 响应 否(重规划) 图1:多智能体系统流水线。顺序工作流将用户查询路由到专门的智能体,以生成基于工具的计划。评估器智能体中的安全护栏确保只有有效计划才会进入执行和解释阶段,而无效或不安全的计划会触发重规划循环。 1. 模拟与评估 2. 数据集整理 3. 顺序流水线 4. 推理优化 用户模拟器 (SS) → 多智能体系统 (MM) → 教师模型 (π_T) 用户:“安排一次丰田凯美瑞的试驾。” 智能体:“听起来不错!您想什么时候来?” 第 i 轮:用户话语 u_i 第 i 轮:多智能体系统响应 a_i I/O 跟踪 (y) → 提示-输出对 提取:提示1 → “你的任务是提取...” 输出 → test_drive LLM 评判 (J) 离线评估 (φ_refine) 领域对齐 (X_CPT) 指令微调 (Y_SFT) 偏好对齐 (Z_DPO) 验证 (y*) → 选择 vs. 拒绝 学生初始化 (π_θ^(0)) 阶段1: CPT (π_θ^CPT) 阶段2: SFT (π_θ^SFT) 阶段3: DPO 定制学生 (π_θ^BF16) π_θ^BF16 → EAGLE 推测解码 (π_θ^EAGLE) → FP8 量化 → 优化模型 (π_θ^EAGLE+FP8) 图2:端到端流水线。端到端流程将智能体能力从教师模型 (π_T) 蒸馏到定制学生模型 (π_θ^BF16),并通过推理技术进一步优化为 π_θ^EAGLE+FP8 模型。 同时,部署的智能体系统必须保留强大的任务特定能力。LLM中的技能迁移成为一种关键方法,使密集模型能够通过微调获得多种能力(Nottingham 等人,2024;Wang 等人,2025)。这在智能体场景中尤为重要,因为单一模型需要执行专门的角色,而不需要依赖多个难以维护和扩展的独立模型。此外,将知识压缩到更小的模型中(通常通过模型蒸馏实现)对于加速推理同时保持与大模型相当的性能至关重要。同时,推测解码(Leviathan 等人,2023;Li 等人,2024b)被证明是一种利用小模型进行推理时减少延迟的有效技术。 为了解决多智能体系统的部署挑战,我们提出了一种智能体模型定制和推理优化流水线,能够显著降低延迟,同时保持强大的任务性能。我们的方法首先使用学生-教师框架进行模型蒸馏,将智能体能力整合到单个优化模型中。该流水线进一步利用无标签数据通过持续预训练(CPT)进行领域适应和知识迁移,在蒸馏过程中结合监督微调(SFT),并应用训练后直接偏好优化(DPO)(Rafailov 等人,2023)以更好地使模型行为符合期望偏好。最后,我们通过结合EAGLE推测解码(Li 等人,2024b)和FP8量化来提升推理效率,在对模型质量影响最小的情况下实现额外的延迟降低。我们在图1中展示了我们的顺序多智能体流水线。我们的贡献总结如下: - 我们提出了一个生产就绪的多智能体系统,集成了智能体模型定制和推理优化流水线,用于真实世界的企业部署。前者将智能体能力蒸馏到更小的模型中,后者则通过EAGLE推测解码和FP8量化在保持模型性能的同时显著降低推理延迟。 - 我们提出了一个端到端(E2E)训练流水线,包括由用户模拟器驱动的数据生成框架和用于定制智能体模型的顺序训练过程。通过对每个训练阶段的系统分析,我们量化了其对生产级质量的贡献,并表明偏好优化对于实现有竞争力的性能至关重要。 - 我们进行了全面的实证研究,表明精心策划的专有数据和公开数据混合可以实现近乎无损的加速,EAGLE可以调整以达到最佳效率和更低延迟,即使推测的正确token更少。 ## 2 智能体模型定制 我们的系统包括一个面向客户的汽车零售聊天机器人,由基于LLM的多智能体工作流驱动。为了减少操作延迟,我们实施了一个离线蒸馏和优化流水线,从高参数量生产教师模型 π_T 过渡到优化的学生模型 π_θ。此定制阶段中的所有训练阶段均在BF16精度下进行。 ### 2.1 多智能体系统架构 为了支持汽车零售中复杂的客户交互,我们开发了一个多智能体系统(MM),驱动面向客户的聊天机器人。所有智能体共享相同的基础模型,但在上下文(包括记忆、知识库和工具访问)上有所不同。这种单模型设计简化了生产部署,同时保留了智能体专业化。如图1所示,系统MM遵循一个包含五个智能体和规划反馈循环的顺序流水线。该系统将复杂查询分解到专门化、协作的角色中:理解器智能体、规划器智能体、评估器智能体、执行器智能体和解释器智能体。每个智能体具体职责的详细分解见附录C.1。 因为单个用户请求可能需要多次多轮交互和重规划迭代,所以累积的延迟和计算成本会迅速上升。我们的目标是在AWS EC2 P5(8×NVIDIA H100 80GB GPU)上最大化吞吐量,同时满足亚秒级端到端延迟SLA。然而,性能分析确定了三个主要瓶颈:(1) 每个请求来自多个LLM调用的累积延迟;(2) 服务大型LLM带来的巨大内存占用;(3) 仅靠预填充优化无法解决的高生成成本。这种复合推理开销需要后续章节中详细描述的激进蒸馏和推理优化策略。关于我们具体部署约束和系统性能分析的更多细节见附录C.2。 ### 2.2 基于智能体模拟的对话数据合成 为了整理高保真训练语料,我们开发了一个自动用户模拟框架,其中专门的用户模拟器 UU 模拟人类客户交互。如图2的端到端流水线所示,模拟器由优化的提示配置 φ_S 驱动,旨在最大化对话多样性并暴露系统于复杂边缘情况。具体来说,模拟提示 φ_S 在每一轮动态吸收四个不同的上下文向量:(i) 累积的对话历史 H,(ii) 映射到支持业务逻辑的目标意图和能力定义集 N,(iii) 用于锚定初始对话领域的种子主题 I,以及 (iv) 环境上下文 E,包括可用车辆库存约束和合成客户档案。单个模拟会话 T 持续进行,直到模拟器达到其分配的目标并输出 EXIT token。 交互遵循顺序的轮流逻辑。对于每次交换 i,模拟器根据先前历史 H_{1:i-1} 生成用户话语 u_i。将此历史与来自多智能体系统 MM 的智能体响应 a_{i-1} 连接,形成完整上下文序列。系统 MM 使用教师模型 π_T 处理此上下文以生成下一个智能体响应 a_i。模拟循环继续,在每个步骤交替生成用户话语和系统响应,直到满足退出条件。这种迭代过程产生了一个包含典型和边界情况交互的综合数据集,捕捉真实客户-智能体对话的复杂动态。 ### 2.3 蒸馏:从教师到学生的知识迁移 我们的蒸馏流水线旨在将智能体能力从高参数量教师模型 π_T 压 缩到更小的学生模型 π_θ。蒸馏过程包括三个阶段:持续预训练(CPT)、监督微调(SFT)和直接偏好优化(DPO)(Rafailov 等人,2023)。每个阶段针对学生模型能力的不同方面。 **持续预训练(CPT):** 在第一阶段,我们在专有的汽车零售文本语料库 X_CPT 上执行持续预训练。这包括非对话文档,如车辆规格、保修条款和金融条款。此阶段通过对模型进行领域特定词汇和知识的预训练,将底层基础知识适应目标领域。只有基础模型在此阶段更新。CPT 有助于缓解后续蒸馏过程中的灾难性遗忘,确保学生模型保留必要的领域理解。 **监督微调(SFT):** 在 CPT 之后,我们通过利用由教师模型 π_T 在模拟对话上生成的标注响应进行监督微调。对于模拟对话中的每一轮,我们使用教师模型生成智能体响应,构建提示-输出对 Y_SFT。SFT 训练阶段使学生模型模仿教师的反应,学习对话结构和工具调用模式。SFT 损失函数是标准的下一个 token 预测交叉熵损失。 **直接偏好优化(DPO):** 最后,我们应用 DPO 微调以更好地对齐学生模型的行为与期望和不需要的输出对比。我们使用教师模型和专门的 LLM 评估器 J 来标记响应作为“选择”或“拒绝”。为了构建偏好数据 Z_DPO,我们让教师模型生成多个候选响应,并使用评估器根据预定义标准对它们进行排名。排名最高的响应被标记为“选择”,排名最低的被标记为“拒绝”。然后使用以下 DPO 目标(Rafailov 等人,2023)优化学生模型: L_DPO(π_θ; π_ref) = -E_{(x,y_c,y_r)∼Z_DPO} [log σ( β (log π_θ(y_c|x)/π_ref(y_c|x) - log π_θ(y_r|x)/π_ref(y_r|x) ))] 其中 x 是提示,y_c 是选择响应,y_r 是拒绝响应,π_ref 是参考模型,β 是控制偏好转导强度的参数。此阶段对于减少微妙错误和改善模型在复杂边界案例上的鲁棒性至关重要。 ### 2.4 低秩适应(LoRA)微调 为了将知识有效迁移到更小的学生模型,我们采用低秩适应(Hu 等人,2021)。LoRA 通过优化低秩矩阵来近似权重更新 ΔW,从而冻结预训练权重。对于预训练权重矩阵 W_0 ∈ R^{d×k},LoRA 将其更新约束为 W_0 + ΔW = W_0 + BA,其中 B ∈ R^{d×r},A ∈ R^{r×k},秩 r ≪ min(d,k)。我们使用 r=16 的秩配置。这种参数高效微调方法允许我们通过仅更新少量参数来使基础模型适应特定领域,降低过拟合风险,同时保持原始零样本能力。 ## 3 推理优化 即使在将教师模型蒸馏为更小的学生模型 π_θ^BF16 之后,推理仍然是端到端延迟的主要贡献者。我们通过两种关键技术进一步优化推理:推测解码和模型量化。 ### 3.1 评估与延迟分析 我们使用生产流量跟踪来评估模型质量,并测量两个关键延迟指标:第一个 token 时间(TTFT)和每个输出 token 时间(TPOT)。TTFT 衡量生成第一个输出 token 之前的预填充延迟,TPOT 衡量生成每个后续 token 的解码延迟。我们的部署目标是端到端延迟 SLA 为 2 秒。 ### 3.2 EAGLE 推测解码 EAGLE(Li 等人,2024b)是一种推测解码方法,使用轻量级草稿模型预测目标模型的多个未来 token。草稿 token 被验证,如果被接受,则每个目标模型前向传递生成多个 token。 **草稿模型训练:** 我们使用 250M 参数模型作为 EAGLE 草稿模型。输入特征包括编码器从隐藏状态提取的特征和 token 嵌入。草稿模型被训练来预测目标分布的下一个 token。详细的架构和训练设置可以在原始 EAGLE 论文(Li 等人,2024b)中找到。 **草稿模型量化:** 我们进一步使用 W8A8-FP8 对草稿模型进行量化,以加速草稿过程,其中权重和激活都以 8 位浮点格式表示。我们使用目标模型生成的一组 500 个代表性提示来校准量化参数。 ### 3.3 FP8 模型量化 我们使用 FP8 量化来减少模型大小和推理延迟。对于权重,我们使用逐块分组量化以提高精度。对于激活,我们使用动态量化以适应逐 token 变化。校准是使用目标模型的输出收集的 1000 个提示完成的。这确保了量化噪声与部署分布对齐。 图6:优化栈。四个优化层(L1–L4)在未优化的基准(L0)之上产生复合性能提升。 ## 附录E:详细讨论与实践要点 将复杂的智能体工作流蒸馏为更小、生产就绪的模型的过程在数据生成、训练方法和推理优化方面产生了若干关键见解。 #### 智能体模拟器的关键作用。 我们发现学生模型的质量完全受限于合成数据的保真度。构建有效的智能体模拟器需要严格的手动优化其控制提示,以确保其准确反映真实生产对话的分布和细微差别。投资于高质量模拟器至关重要;没有它,下游蒸馏过程只会强化不切实际的交互模式。 #### 使用 LoRA 保持提示遵循能力。 在实时生产环境中,业务需求经常变化。产品团队需要定期引入新的工具 API、改变业务逻辑或修改用户体验。因此,蒸馏后的学生模型必须对系统提示更新保持高度适应性。我们最初尝试了全参数微调。虽然它达到了可比的基准性能,但完全微调的模型严重过拟合了训练期间看到的特定提示结构,失去了泛化或适应新指令的能力。相反,应用 LoRA 成功保留了基础模型固有的零样本适应性。LoRA 允许模型学习所需的领域专业知识,同时保持对后续提示修改的响应能力,这是维护动态生产系统的强制性要求。 #### 偏好对齐的必要性。 仅靠监督微调(SFT)不足以实现生产级可靠性。虽然 SFT 成功灌输了一般工具调用格式和对话语气,但直接偏好优化(DPO)对于解决复杂的边界条件至关重要。通过明确对比成功输出与失败模式,DPO 有效纠正了微妙的逻辑错误和边缘案例,在这些案例中即使是高参数教师模型也会偶尔挣扎。 #### 堆叠推理优化。 在广泛的优化设计空间(Zhen 等人,2025;Zhao 等人,2025)中,我们发现了堆叠优化组合的重要性,这些组合能提供持久的加速同时保持智能。在系统层面,调用减少技术,如条件智能体调用、提示缓存重用和连续批处理,消除了冗余调用,提高了 GPU 利用率,并包含在所有基准评估中。CPT–SFT–DPO 蒸馏从 π_T 到 π_θ^BF16 提供了 2.33 倍的端到端加速。经过训练的 EAGLE 草稿模型和 W8A8-FP8 进一步持久地加速了 π_θ^BF16,提高了 1.92 倍,堆叠产生 π_θ^EAGLE+FP8,具有 4.48 倍加速,同时保持在延迟 SLO(服务级别目标)之下。我们还发现,在各个优化阶段,适当的公开和领域内数据混合对于防止蒸馏过程中的灾难性遗忘、确保鲁棒的 FP8-W8A8 校准以及实现 EAGLE 草稿模型训练中的强接受长度至关重要。最后,仔细权衡(例如选择贪婪推测而非树形推测)即使在导致较低推测 MGL 的情况下也能提高延迟和吞吐量。 #### 草稿模型量化与贪婪解码。 使用混合校准集在贪婪解码下量化 250M 的 EAGLE 草稿模型,将加速比从 4.16 倍(π_θ^EAGLE(C))提高到 4.48 倍(π_θ^EAGLE+FP8),反映出在 MGL 不变的情况下更高的草稿吞吐量。
相似文章
超越LLM:为何可扩展的企业AI落地依赖于Agent逻辑
IBM Research探索了Agent逻辑——诸如知识图谱和程序分析等软件原语——如何引导基于LLM的Agent高效处理复杂的企业工作流,减少幻觉和成本,同时改善结果。
从人工引导到自主:面向空间NPU的端到端LLM部署的智能体技能系统
本文提出了一种两阶段方法论,用于在空间NPU上进行端到端大语言模型(LLM)部署,从人工引导开发逐步过渡到自主智能体技能系统。该系统在参考模型上实现了预填充阶段2.2倍、解码阶段4.0倍的加速,并以极少的人工引导在AMD XDNA 2 NPU上自主部署了另外八个LLM。
我们是否在浪费时间基于开源模型构建企业代理?(我对Ling 1T 2.6的经验)
一位企业代理开发者讨论了使用像Ling 1T 2.6这样的开源模型的权衡,强调了相比于专有API,优化和基准测试的高昂开销。
TradingAgents:多智能体 LLM 金融交易框架
本文介绍了 TradingAgents,这是一个多智能体 LLM 框架,通过模拟现实世界中的交易公司来提升股票交易表现。该框架利用执行分析和风险管理的专用智能体,在累计收益和夏普比率方面优于基线模型。
TMAS:通过多智能体协同扩展测试时计算
TMAS 引入了一种多智能体框架,通过结构化协作与分层记忆系统扩展测试时计算,从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习,有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。