评估代理型计划-执行流水线中的时序语义缓存与工作流优化

Hugging Face Daily Papers 2026/05/20 00:00 论文

摘要

本文介绍了针对代理型计划-执行流水线的时序语义缓存与MCP工作流优化，在缓存命中时实现了高达30.6倍的加速，并在AssetOpsBench工业基准测试上实现了1.67倍的整体加速。

工业资产运营工作流对延迟敏感，因为单个用户查询可能需要协调传感器数据、工单、故障模式、预测工具和领域特定代理。我们在AssetOpsBench（AOB）上评估这一问题，该工业代理基准测试的计划-执行流水线暴露了来自工具发现、LLM规划、MCP工具执行和最终总结的重复开销。现有的LLM缓存技术（如KV缓存复用和基于嵌入的语义缓存）是为聊天服务设计的，当输出有效性依赖于时间、资产或传感器参数时会失效。我们为AOB计划-执行流水线提出了两个互补的优化层：一个时序语义缓存，以及一组结合了磁盘支持的工具发现缓存和依赖感知的并行步骤执行的MCP工作流优化。MCP工作流优化实现了1.67倍的加速，并将中位端到端延迟降低了约40.0%，而时序缓存基准在缓存命中时实现了中位30.6倍的加速。除了加速之外，我们的结果还揭示了纯语义缓存在参数丰富的工业查询中的一个具体失败模式，提供了对缓存选择如何在MCP支持的代理基准测试中与评估正确性相互作用的批判性分析。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:20

论文页面 - 评估智能体规划-执行流水线中的时序语义缓存与工作流优化

来源：https://huggingface.co/papers/2605.20630

摘要

工业资产运营工作流因复杂的协调需求而面临延迟挑战，本文通过新颖的缓存与工作流优化技术，在参数丰富的环境中提升执行速度的同时保持正确性。

工业资产运营工作流对延迟敏感，因为单个用户查询可能需要协调传感器数据、工单、故障模式、预测工具和领域专用智能体。我们在 AssetOpsBench (https://huggingface.co/papers?q=AssetOpsBench) (AOB) 上评估了该问题——这是一个工业智能体基准，其规划-执行流水线 (https://huggingface.co/papers?q=plan-execute%20pipeline) 暴露了工具发现、LLM规划、MCP工具执行和最终汇总过程中的重复开销。现有的LLM缓存 (https://huggingface.co/papers?q=LLM%20caching) 技术（如KV缓存复用 (https://huggingface.co/papers?q=KV-cache%20reuse) 和基于嵌入的语义缓存 (https://huggingface.co/papers?q=embedding-based%20semantic%20caching)）是为聊天机器人服务设计的，当输出有效性依赖于时间、资产或传感器参数时，这些方法会失效。我们为 AOB 规划-执行流水线 (https://huggingface.co/papers?q=plan-execute%20pipeline) 提出了两个互补的优化层：一个时序语义缓存 (https://huggingface.co/papers?q=temporal%20semantic%20cache) 以及一组 MCP 工作流优化 (https://huggingface.co/papers?q=MCP%20workflow%20optimizations)，后者结合了磁盘支持的工具发现缓存 (https://huggingface.co/papers?q=disk-backed%20tool-discovery%20caching) 和依赖感知的并行步骤执行 (https://huggingface.co/papers?q=dependency-aware%20parallel%20step%20execution)。MCP 工作流优化 (https://huggingface.co/papers?q=MCP%20workflow%20optimizations) 实现了 1.67 倍的加速，并将端到端中位数延迟降低了约 40.0%，而时序缓存基准在缓存命中时实现了中位数 30.6 倍的加速。除了加速效果外，我们的结果还揭示了纯语义缓存在参数丰富的工业查询中的具体失效模式，并对MCP支持的智能体基准中缓存选择如何影响评估正确性进行了关键分析。

查看 arXiv 页面 (https://arxiv.org/abs/2605.20630)查看 PDF (https://arxiv.org/pdf/2605.20630)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.20630)

在您的智能体中获取此论文：

hf papers read 2605.20630

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.20630 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.20630 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.20630 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接。

评估代理型计划-执行流水线中的时序语义缓存与工作流优化

论文页面 - 评估智能体规划-执行流水线中的时序语义缓存与工作流优化

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏0

相似文章

面向仓库优化的上下文感知流水线合成

面向多智能体系统的工作负载感知缓存

解释提示缓存如何在大型语言模型（LLM）中工作，以Claude为案例，详细说明Transformer的KV缓存机制以及在代理工作流中缓存静态前缀的成本效益。

您的智能体工作流的缓存保活成本高出8倍

缓存如何每月帮我们节省数百美元的AI成本

提交意见反馈