DualPath: 破解智能体LLM推理中的存储带宽瓶颈
摘要
DualPath是一种通过引入双路径KV-cache加载机制来打破智能体LLM推理中存储带宽瓶颈的系统,离线吞吐量提升可达1.87倍,在线吞吐量提升可达1.96倍。
暂无内容
查看缓存全文
缓存时间: 2026/06/24 20:03
# 打破智能体LLM推理中的存储带宽瓶颈 来源:https://arxiv.org/html/2602.21548 Yongtong Wu1,3,Shaoyuan Chen2,3,Yinmin Zhong1,3,Rilin Huang1,Yixuan Tan3,Wentao Zhang3,Liyue Zhang3,Shangyan Zhou3,Yuxuan Liu3,Shunfeng Zhou3,Mingxing Zhang2,Xin Jin1,Panpan Huang3 ###### 摘要。 在多人、智能体LLM推理中,性能越来越受KV缓存存储I/O而非计算支配。在流行的解耦架构中,从外部存储加载大量KV缓存造成了根本性的不平衡:预填引擎上的存储网卡带宽饱和,而解码引擎上的网卡却空闲。这种不对称性严重限制了整体系统吞吐量。我们提出DualPath,一种通过引入双路径KV缓存加载来打破此瓶颈的推理系统。除了传统的存储到预填路径,DualPath还启用了一种新颖的存储到解码路径,其中KV缓存被加载到解码引擎,然后通过计算网络上的RDMA高效传输到预填引擎。DualPath将这种优化的数据路径(其本质上避免网络拥塞并避免与延迟敏感的模型执行通信干扰)与一个全局调度器相结合,该调度器动态平衡预填和解码引擎之间的负载。我们在三个模型上使用真实的智能体工作负载进行评估,结果表明,在我们自研的推理系统中,DualPath将离线推理吞吐量提高了最高1.87倍。它还能在不违反SLO的情况下,将在线服务吞吐量平均提高1.96倍。 ## 1. 引言 大型语言模型(LLM)正在从单轮聊天机器人(OpenAI,2025b (https://arxiv.org/html/2602.21548#bib.bib1);DeepSeek-AI,2025d (https://arxiv.org/html/2602.21548#bib.bib19))和独立推理器(OpenAI,2025b (https://arxiv.org/html/2602.21548#bib.bib1))迅速发展为*智能体系统*,这些系统能够通过*多轮交互*自主规划、调用工具并解决现实世界任务(Chowa et al., 2026 (https://arxiv.org/html/2602.21548#bib.bib36);Wang et al., 2024 (https://arxiv.org/html/2602.21548#bib.bib37);Xie et al., 2025 (https://arxiv.org/html/2602.21548#bib.bib38);Jiang et al., 2024 (https://arxiv.org/html/2602.21548#bib.bib39);Mohammadi et al., 2025 (https://arxiv.org/html/2602.21548#bib.bib44))。在这种设置下,LLM不再服务孤立的提示;相反,它参与长时间运行的会话,其中上下文随时间累积(Lin et al., 2025 (https://arxiv.org/html/2602.21548#bib.bib35))。随着智能体应用变得越来越普遍,多轮LLM推理已成为生产系统中的关键工作负载,范围从编码助手(Yang et al., 2024 (https://arxiv.org/html/2602.21548#bib.bib40);Wu et al., 2023 (https://arxiv.org/html/2602.21548#bib.bib42))到自主任务智能体(Zhou et al., 2023 (https://arxiv.org/html/2602.21548#bib.bib41);Li et al., 2024 (https://arxiv.org/html/2602.21548#bib.bib43))。这种应用范式的转变推动了LLM推理工作负载的重大转变:从传统的人-LLM交互到人-LLM-环境交互,称为*智能体范式*。典型的人-模型交互模式是用户提供输入,与LLM进行少数几轮交互,并消费LLM生成的结果。相比之下,智能体LLM可以通过工具(如Web浏览器和Python解释器)与外部环境进行数十甚至数百轮交互。尽管每次独立的工具调用或反馈通常很短(常为几百个token),但上下文会随着轮次累积并可能增长到极端长度。因此,智能体工作负载变得高度I/O绑定:多轮、短追加的模式导致极高的KV缓存命中率——通常≥95%(Chen et al., 2026 (https://arxiv.org/html/2602.21548#bib.bib67))——使得KV缓存加载的效率(而非纯计算)成为主导性能因素。 参见图注 图1. 现有瓶颈(左)和DualPath(右)。 为了提高智能体工作负载下的吞吐量,现有的LLM推理系统已收敛于一组常见的架构模式:*逐层预填*(Xiong et al., 2024 (https://arxiv.org/html/2602.21548#bib.bib7);Du et al., 2025 (https://arxiv.org/html/2602.21548#bib.bib22))、*预填-解码(PD)解耦*(Zhong et al., 2024 (https://arxiv.org/html/2602.21548#bib.bib8);Patel et al., 2025 (https://arxiv.org/html/2602.21548#bib.bib29);Zhao et al., 2025a (https://arxiv.org/html/2602.21548#bib.bib56))和*外部KV缓存存储*(Gao et al., 2024 (https://arxiv.org/html/2602.21548#bib.bib45);Liu et al., 2025 (https://arxiv.org/html/2602.21548#bib.bib48);Qin et al., 2025 (https://arxiv.org/html/2602.21548#bib.bib25))。在这些系统中,预填引擎以逐层方式加载KV缓存,以便在单个批次中容纳尽可能多的请求。当预填完成时,解码引擎通常通过高性能RDMA网络从预填引擎接收KV缓存。解码引擎随后生成token并将其KV缓存存储在分布式存储中,以便在轮次之间重用。然而,这种架构也引入了一个关键限制。如图1所示,预填引擎必须从远程存储加载大量KV缓存。因此,*预填端存储网络带宽*成为整个系统的吞吐量瓶颈,即使解码引擎通常有大量未使用的存储网络带宽。这种不平衡揭示了现有设计中的根本效率低下:存储网络带宽在不同引擎之间利用不均。预填引擎的带宽持续饱和,而解码引擎仍然利用不足。简单地为预填引擎提供更多带宽成本高昂,并且在通用集群中通常不切实际。因此,利用并结合所有引擎的可用I/O带宽(而不是仅使预填引擎过载)来加速智能体LLM工作负载的KV缓存加载是很有前景的。 先前的研究试图缓解KV缓存加载瓶颈。Mooncake(Qin et al., 2025 (https://arxiv.org/html/2602.21548#bib.bib25))将KV缓存缓存在分布式DRAM池中,并采用亲和性感知调度器来最大化DRAM KV缓存的命中率。然而,它不能在内存受限的场景中使用,例如强化学习中的 rollout 阶段,此时DRAM被占用以保存从HBM卸载的大量训练状态。在具有巨大工作集(例如在线服务)的场景中,考虑到DRAM与SSD之间的成本比较,它也不具有成本效益。其他尝试减少了需要检索的KV缓存数据量(Gao et al., 2025 (https://arxiv.org/html/2602.21548#bib.bib50))并降低了检索开销(Hu et al., 2025 (https://arxiv.org/html/2602.21548#bib.bib52);Yan et al., 2025 (https://arxiv.org/html/2602.21548#bib.bib51))。然而,它们并未解决由不同引擎之间的存储I/O不平衡引起的固有低效问题。 在本文中,我们提出DualPath,一种新的LLM推理系统,它重新思考了现代推理架构中针对智能体工作负载的KV缓存加载。DualPath背后的关键洞察是KV缓存加载不必以预填为中心。虽然现有系统总是直接从存储加载KV缓存到预填引擎,但它们无法利用解码引擎的远程存储带宽。DualPath通过启用*双路径KV缓存加载*来利用这一观察:除了传统的存储到预填路径,KV缓存可以被加载到解码引擎,然后通过高性能RDMA传输到预填引擎。通过动态选择这些路径,DualPath重新分配网络负载并缓解预填端的带宽压力。 实现这一设计提出了两个挑战。首先,引入额外的加载路径会引入复杂的流量模式,并可能与模型执行中的集体原语产生干扰,如果不加以管理,可能会降低整体性能。其次,系统必须在动态和异构工作负载下在线决定使用哪个加载路径,并同时确保GPU和NIC之间的负载平衡。为了应对这些挑战,DualPath采用了(1)一种优化的双路径加载数据路径设计,在常见的P/D比例下不会引入固有拥塞;(2)一种以NIC为中心的流量管理方法,将KV缓存流量与延迟敏感的模型推理通信隔离开来;(3)一种动态调度策略,联合平衡预填和解码引擎上的计算和网络利用率。 我们在现代推理栈上实现了DualPath,并使用具有长上下文和高缓存重用率的代表性智能体工作负载进行评估。实验表明,DualPath显著提高了系统吞吐量和首token延迟,同时保持了token间延迟。在智能体推理场景中,DualPath将端到端吞吐量提高了离线推理高达1.87倍,并将在线服务吞吐量平均提高了1.96倍。总结来说,本文做出了三项贡献: - • 我们识别了多轮智能体LLM工作负载的I/O绑定性质,并表明在现代LLM推理架构下KV缓存加载主导系统性能。 - • 我们提出了DualPath,一种引入双路径KV缓存加载并利用解码引擎带宽解决预填端瓶颈的推理系统。 - • 我们设计并评估了一种工作负载感知调度算法,该算法动态平衡计算和网络资源,在真实工作负载上显著提高了平衡性。 ## 2. 背景 ### 2.1. LLM推理初步 LLM推理最近成为最重要的系统工作负载之一。流行的LLM使用仅解码器Transformer架构,由带有注意力层和前馈网络(FFN)的堆叠块组成。注意力层使请求内的token能够交互,而FFN独立处理token。模型根据前面的token预测后续token,并将注意力的键和值作为*KV缓存*存储在HBM中以避免重新计算。 **PD解耦推理。***预填-解码(PD)解耦*(Zhong et al., 2024 (https://arxiv.org/html/2602.21548#bib.bib8);Patel et al., 2025 (https://arxiv.org/html/2602.21548#bib.bib29))将预填阶段与解码阶段分离,分别分配给专用的预填引擎(PE)和解码引擎(DE)。这两个阶段展现出不同的计算和内存模式:预填是计算密集型的且可批处理,而解码是内存受限且对延迟敏感的。通过PD解耦,PE加载命中的KV缓存并执行预填;然后,他们将KV缓存传输到DE,DE执行自回归解码。这种设计减少了阶段间的干扰,启用了阶段特定的优化,提高了可扩展性,使其成为现代LLM服务的事实架构。为了支持多轮对话,KV缓存通常存储在分布式存储中以在轮次间重用。 **逐层预填。**长上下文预填受限于HBM容量,因为激活值和整个批次的KV缓存都必须驻留在其中,迫使批次大小受限并导致GPU利用率低下。LayerKV(Xiong et al., 2024 (https://arxiv.org/html/2602.21548#bib.bib7))和PrefillOnly(Du et al., 2025 (https://arxiv.org/html/2602.21548#bib.bib22))通过利用预填计算中的强局部性解决了这个问题:每一层只需要其自身特定层的KV缓存。因此,KV缓存可以按层分配和释放,GPU在向前批次中只保存一层KV缓存。这将有效批次大小(以token计)增加了大约等于层数的倍数,从而提高了预填吞吐量。 ### 2.2. 智能体使用LLM 参见图注 图2. 智能体轨迹示例。 LLM越来越多地驱动*智能体*应用,这些应用执行多轮推理并在长时间会话中与环境交互(例如,通过终端命令、代码执行或请求人类反馈)。如图2所示,在一个典型的*轮次*中,模型接收一个由先前*上下文*加上一些新*追加的token*(通常是工具输出或用户输入)组成的提示,并*生成*下一个动作或响应。一次智能体运行是一个包含数十甚至数百轮次的*轨迹*:上下文逐轮增长,可能达到一百万个token(Anthropic, 2026 (https://arxiv.org/html/2602.21548#bib.bib3);DeepMind, 2026 (https://arxiv.org/html/2602.21548#bib.bib4))。因为大多数上下文(在我们的追踪中通常>95%的token)在轮次间被重用,所以每轮中绝大多数token都能命中KV缓存;只有新追加的上下文需要预填计算。由于智能体轨迹的极端长度,基于DRAM和HBM的KV缓存存储(如Mooncake (Qin et al., 2025 (https://arxiv.org/html/2602.21548#bib.bib25))只能存储一小部分KV缓存,这需要使用更大但更便宜的外部基于SSD的KV缓存存储(DeepSeek-AI, 2025a (https://arxiv.org/html/2602.21548#bib.bib15))。 智能体LLM推理工作负载在智能体LLM训练中也很普遍,后者通常采用*强化学习*(RL)方法。在典型的RL训练循环中,智能体LLM首先经历一个*rollout*阶段,在该阶段中它被提示生成大量多步智能体轨迹。这些轨迹随后由单独的奖励模型评分。最后,更新LLM参数以增加高分输出的可能性并降低低分输出的可能性。在rollout阶段,大量数据(如奖励模型和优化器状态)被卸载到主机DRAM,进一步限制了可用于KV缓存的DRAM。这强化了对外部、高容量KV缓存存储的需求,以便高效地容纳长智能体rollout上下文。 ### 2.3. 现代AI数据中心架构 现代AI数据中心是专门构建的逻辑超级计算机,旨在处理大规模生成式AI训练和推理工作负载。例如,在标准的NVIDIA DGX SuperPOD(NVIDIA, 2023 (https://arxiv.org/html/2602.21548#bib.bib16))中,每个节点配备8个Hopper GPU,通过高速NVLink互连。每个GPU配有一个专用的400 Gbps计算NIC(*CNIC*,也称为东西向NIC),以最大化节点间通信带宽。独立于计算结构,每个节点还有一个高达400 Gbps的存储NIC(*SNIC*,也称为南北向NIC),提供对数据集、模型检查点和磁盘上KV缓存的快速访问。该架构的一个基本原则是计算网络和存储网络彼此隔离(Zhao et al., 2025a (https://arxiv.org/html/2602.21548#bib.bib56))。这种隔离对于最大化存储和应用性能至关重要。通过将GPU之间的高密集度东西向计算流量与存储流量隔离,架构防止了它们之间的干扰,并大幅降低了计算通信延迟。这种设计还确保即使在执行数据密集型任务(如读取大型数据集或写入多TB模型检查点)时,GPU间通信仍然高度可靠且可预测。 ## 3. 瓶颈与动机
相似文章
面向LLM-Agent工作流中并行分支的直接潜在空间合成
介绍Parallel-Synthesis框架,该框架能够直接消费来自并行工作代理的KV缓存,将首令牌时间减少2.5倍至11倍,同时在代理任务上保持或提升性能。
@techNmak: 你的LLM推理正在消耗50%的计算资源在已经完成的工作上。如果你正在运行RAG或多轮对话,……
LMCache是一个开源库,它使KV缓存持久化并可在请求之间共享,消除了RAG和多轮对话工作负载中的重复计算,实现了高达15倍的吞吐量提升和3-10倍的首令牌时间减少。
@rohanpaul_ai: 斯坦福新论文指出,在同等推理预算下,单个LLM通常比多个……更好地解决多跳问题
一项新的斯坦福论文显示,在同等推理token预算下,单个LLM在多跳推理任务上通常优于多智能体系统,而多智能体设置带来的提升往往来自更多计算而非架构优势。该论文利用数据处理不等式解释为什么交接中的信息丢失会损害多智能体性能,并指出上下文质量是多智能体系统能够提供益处的关键因素。
内存
解释了为什么由于KV缓存随上下文长度和并发用户数扩展,LLM推理越来越受内存带宽限制,以及像vLLM和PagedAttention这样的系统如何提高内存利用率。
Late-Layer Fusion 足矣:视觉饱和下多模态大语言模型的双路径视觉令牌路由
本文提出 DPVR-LF,一种面向多模态大语言模型(MLLM)的模态不对称路由框架,该框架在视觉令牌饱和点将其路由到轻量级侧分支,并执行晚期融合,从而在减少视觉计算量的同时保持具有竞争力的性能。