评估代理型计划-执行流水线中的时序语义缓存与工作流优化

Hugging Face Daily Papers 论文

摘要

本文介绍了针对代理型计划-执行流水线的时序语义缓存与MCP工作流优化,在缓存命中时实现了高达30.6倍的加速,并在AssetOpsBench工业基准测试上实现了1.67倍的整体加速。

工业资产运营工作流对延迟敏感,因为单个用户查询可能需要协调传感器数据、工单、故障模式、预测工具和领域特定代理。我们在AssetOpsBench(AOB)上评估这一问题,该工业代理基准测试的计划-执行流水线暴露了来自工具发现、LLM规划、MCP工具执行和最终总结的重复开销。现有的LLM缓存技术(如KV缓存复用和基于嵌入的语义缓存)是为聊天服务设计的,当输出有效性依赖于时间、资产或传感器参数时会失效。我们为AOB计划-执行流水线提出了两个互补的优化层:一个时序语义缓存,以及一组结合了磁盘支持的工具发现缓存和依赖感知的并行步骤执行的MCP工作流优化。MCP工作流优化实现了1.67倍的加速,并将中位端到端延迟降低了约40.0%,而时序缓存基准在缓存命中时实现了中位30.6倍的加速。除了加速之外,我们的结果还揭示了纯语义缓存在参数丰富的工业查询中的一个具体失败模式,提供了对缓存选择如何在MCP支持的代理基准测试中与评估正确性相互作用的批判性分析。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:20

论文页面 - 评估智能体规划-执行流水线中的时序语义缓存与工作流优化

来源:https://huggingface.co/papers/2605.20630

摘要

工业资产运营工作流因复杂的协调需求而面临延迟挑战,本文通过新颖的缓存与工作流优化技术,在参数丰富的环境中提升执行速度的同时保持正确性。

工业资产运营工作流对延迟敏感,因为单个用户查询可能需要协调传感器数据、工单、故障模式、预测工具和领域专用智能体。我们在 AssetOpsBench (https://huggingface.co/papers?q=AssetOpsBench) (AOB) 上评估了该问题——这是一个工业智能体基准,其规划-执行流水线 (https://huggingface.co/papers?q=plan-execute%20pipeline) 暴露了工具发现、LLM规划、MCP工具执行和最终汇总过程中的重复开销。现有的LLM缓存 (https://huggingface.co/papers?q=LLM%20caching) 技术(如KV缓存复用 (https://huggingface.co/papers?q=KV-cache%20reuse) 和基于嵌入的语义缓存 (https://huggingface.co/papers?q=embedding-based%20semantic%20caching))是为聊天机器人服务设计的,当输出有效性依赖于时间、资产或传感器参数时,这些方法会失效。我们为 AOB 规划-执行流水线 (https://huggingface.co/papers?q=plan-execute%20pipeline) 提出了两个互补的优化层:一个时序语义缓存 (https://huggingface.co/papers?q=temporal%20semantic%20cache) 以及一组 MCP 工作流优化 (https://huggingface.co/papers?q=MCP%20workflow%20optimizations),后者结合了磁盘支持的工具发现缓存 (https://huggingface.co/papers?q=disk-backed%20tool-discovery%20caching) 和依赖感知的并行步骤执行 (https://huggingface.co/papers?q=dependency-aware%20parallel%20step%20execution)。MCP 工作流优化 (https://huggingface.co/papers?q=MCP%20workflow%20optimizations) 实现了 1.67 倍的加速,并将端到端中位数延迟降低了约 40.0%,而时序缓存基准在缓存命中时实现了中位数 30.6 倍的加速。除了加速效果外,我们的结果还揭示了纯语义缓存在参数丰富的工业查询中的具体失效模式,并对MCP支持的智能体基准中缓存选择如何影响评估正确性进行了关键分析。

查看 arXiv 页面 (https://arxiv.org/abs/2605.20630)查看 PDF (https://arxiv.org/pdf/2605.20630)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.20630)

在您的智能体中获取此论文:

hf papers read 2605.20630

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.20630 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.20630 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.20630 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

使用 MCP 进行代码执行:构建更高效的智能体

Anthropic Engineering

本文来自 Anthropic,探讨了如何将代码执行与 Model Context Protocol (MCP) 相结合,以提升 AI 智能体的效率。文章分析了工具定义和中间结果导致的 token 过载等挑战,并提出代码执行作为降低延迟和成本的解决方案。

面向低延迟多智能体工具调用的有状态推理架构

arXiv cs.LG

本文提出了一种用于多智能体工具调用的有状态推理架构,该架构在多次调用之间复用KV缓存,并采用推测解码技术,相较于vLLM和SGLang,在智能体工作流上实现了2.1倍至4.2倍的加速。