评估代理型计划-执行流水线中的时序语义缓存与工作流优化
摘要
本文介绍了针对代理型计划-执行流水线的时序语义缓存与MCP工作流优化,在缓存命中时实现了高达30.6倍的加速,并在AssetOpsBench工业基准测试上实现了1.67倍的整体加速。
查看缓存全文
缓存时间: 2026/05/21 06:20
论文页面 - 评估智能体规划-执行流水线中的时序语义缓存与工作流优化
来源:https://huggingface.co/papers/2605.20630
摘要
工业资产运营工作流因复杂的协调需求而面临延迟挑战,本文通过新颖的缓存与工作流优化技术,在参数丰富的环境中提升执行速度的同时保持正确性。
工业资产运营工作流对延迟敏感,因为单个用户查询可能需要协调传感器数据、工单、故障模式、预测工具和领域专用智能体。我们在 AssetOpsBench (https://huggingface.co/papers?q=AssetOpsBench) (AOB) 上评估了该问题——这是一个工业智能体基准,其规划-执行流水线 (https://huggingface.co/papers?q=plan-execute%20pipeline) 暴露了工具发现、LLM规划、MCP工具执行和最终汇总过程中的重复开销。现有的LLM缓存 (https://huggingface.co/papers?q=LLM%20caching) 技术(如KV缓存复用 (https://huggingface.co/papers?q=KV-cache%20reuse) 和基于嵌入的语义缓存 (https://huggingface.co/papers?q=embedding-based%20semantic%20caching))是为聊天机器人服务设计的,当输出有效性依赖于时间、资产或传感器参数时,这些方法会失效。我们为 AOB 规划-执行流水线 (https://huggingface.co/papers?q=plan-execute%20pipeline) 提出了两个互补的优化层:一个时序语义缓存 (https://huggingface.co/papers?q=temporal%20semantic%20cache) 以及一组 MCP 工作流优化 (https://huggingface.co/papers?q=MCP%20workflow%20optimizations),后者结合了磁盘支持的工具发现缓存 (https://huggingface.co/papers?q=disk-backed%20tool-discovery%20caching) 和依赖感知的并行步骤执行 (https://huggingface.co/papers?q=dependency-aware%20parallel%20step%20execution)。MCP 工作流优化 (https://huggingface.co/papers?q=MCP%20workflow%20optimizations) 实现了 1.67 倍的加速,并将端到端中位数延迟降低了约 40.0%,而时序缓存基准在缓存命中时实现了中位数 30.6 倍的加速。除了加速效果外,我们的结果还揭示了纯语义缓存在参数丰富的工业查询中的具体失效模式,并对MCP支持的智能体基准中缓存选择如何影响评估正确性进行了关键分析。
查看 arXiv 页面 (https://arxiv.org/abs/2605.20630)查看 PDF (https://arxiv.org/pdf/2605.20630)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.20630)
在您的智能体中获取此论文:
hf papers read 2605.20630
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.20630 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.20630 以从此页面链接。
引用此论文的 Space0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.20630 以从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
使用 MCP 进行代码执行:构建更高效的智能体
本文来自 Anthropic,探讨了如何将代码执行与 Model Context Protocol (MCP) 相结合,以提升 AI 智能体的效率。文章分析了工具定义和中间结果导致的 token 过载等挑战,并提出代码执行作为降低延迟和成本的解决方案。
面向低延迟多智能体工具调用的有状态推理架构
本文提出了一种用于多智能体工具调用的有状态推理架构,该架构在多次调用之间复用KV缓存,并采用推测解码技术,相较于vLLM和SGLang,在智能体工作流上实现了2.1倍至4.2倍的加速。
基于智能体AI、嵌套学习与语义缓存的幻觉缓解及AI可持续性
本文提出了一种记忆增强的多智能体架构,采用嵌套学习、连续记忆系统和语义缓存来缓解LLM流程中的幻觉问题,在显著减少事实错误的同时提高了运营效率。
使用Temporal构建可扩展的数据摄取管道(第一部分)
这篇博客文章描述了使用Temporal构建可扩展的数据摄取管道的架构,用于处理来自不同来源的客户文档的抓取、提取、分块和嵌入,强调了持久性、状态性和并发控制。
提升GitHub Agentic Workflows中的Token效率(12分钟阅读)
GitHub通过API代理记录Token使用并建立每日优化工作流,减少了未使用的MCP工具注册带来的开销,从而提升了其代理工作流的Token效率。