TokenPilot：面向LLM代理的缓存高效上下文管理

Hugging Face Daily Papers 2026/06/15 00:00 论文

摘要

TokenPilot是一个双粒度上下文管理框架，通过稳定提示前缀和保守管理上下文片段，降低长时程LLM会话中的推理成本。在基准测试中实现了61-87%的成本降低，同时保持竞争性性能。

随着LLM代理被部署到长时程会话中，上下文累积导致推理成本上升。现有方法采用文本剪枝或动态内存驱逐来最小化token占用，但其无约束的序列突变会改变布局，引入前缀不匹配和缓存失效。这揭示了文本稀疏性与提示缓存连续性之间的关键权衡。为此，我们提出TokenPilot，一个双粒度上下文管理框架。全局层面，摄入感知压缩作为框架约束，在摄入入口处稳定提示前缀并消除开放世界环境噪声。局部层面，生命周期感知驱逐持续监控上下文片段当前的残余效用，强制执行保守的批处理轮次调度，仅在任务相关性过期时才卸载内容片段。在PinchBench和Claw-Eval上的实验（包括隔离模式和连续模式）表明，TokenPilot在隔离模式下将成本降低61%和56%，在连续模式下降低61%和87%，同时相比先前系统保持了竞争性性能。TokenPilot已集成到LightMem2中，地址为https://github.com/zjunlp/LightMem2。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:34

论文页面 - TokenPilot：面向LLM代理的缓存高效上下文管理

来源：https://huggingface.co/papers/2606.17016 作者：

摘要

TokenPilot 是一个双粒度上下文管理框架，通过稳定提示前缀并保守管理上下文片段，降低长时 LLM 会话中的推理成本。

随着 LLM 代理 (https://huggingface.co/papers?q=LLM%20agents) 被部署到长时会话中，上下文积累导致推理成本飙升。现有方法采用文本剪枝或动态内存驱逐来最小化 token footprints (https://huggingface.co/papers?q=token%20footprints)；然而，这些方法无约束的序列突变改变了布局，引发前缀不匹配和缓存失效。这揭示了文本稀疏性与 prompt cache continuity (https://huggingface.co/papers?q=prompt%20cache%20continuity) 之间的关键权衡。为解决这一问题，我们提出 TokenPilot，这是一种双粒度的 context management (https://huggingface.co/papers?q=context%20management) 框架。全局层面，Ingestion-Aware Compaction (https://huggingface.co/papers?q=Ingestion-Aware%20Compaction) 作为框架约束，在摄入门控处稳定提示前缀并消除开放世界的环境噪声。局部层面，Lifecycle-Aware Eviction (https://huggingface.co/papers?q=Lifecycle-Aware%20Eviction) 监控上下文片段的残余效用 residual utility (https://huggingface.co/papers?q=residual%20utility)，强制执行保守的 batch-turn schedule (https://huggingface.co/papers?q=batch-turn%20schedule)，仅当任务相关性过期时才卸载内容片段。在 PinchBench 和 Claw-Eval 上的独立模式 isolated mode (https://huggingface.co/papers?q=isolated%20mode) 与连续模式 continuous mode (https://huggingface.co/papers?q=continuous%20mode) 实验表明，TokenPilot 在独立模式下分别降低成本 61% 和 56%，在连续模式下分别降低成本 61% 和 87%，同时保持与以往系统相当的性能。TokenPilot 已集成到 LightMem2 中，地址为 https://github.com/zjunlp/LightMem2。

查看 arXiv 页面 (https://arxiv.org/abs/2606.17016) 查看 PDF (https://arxiv.org/pdf/2606.17016) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.17016)

在代理中获取此论文：

hf papers read 2606.17016

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.17016 可从本页面链接。

引用此论文的数据集 0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.17016 可从本页面链接。

引用此论文的 Space 0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.17016 可从本页面链接。

TokenPilot：面向LLM代理的缓存高效上下文管理

论文页面 - TokenPilot：面向LLM代理的缓存高效上下文管理

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏集 1

相似文章

@rohanpaul_ai: TokenPilot 通过摄入感知压缩和生命周期感知驱逐来降低 LLM 智能体成本，实现了 61–87% 的成本降低。

@omarsar0: // The Efficiency Frontier // 关于上下文管理的有趣论文。随着代理在多次交互中重复使用相同的文档和历史记录……

更少上下文，更智能代理：面向长周期工具使用的LLM代理的高效上下文工程

@IntuitMachine: PEEK: 这个1K Token地图刚刚终结了长上下文税你的LLM代理正在读取同一个50K Token的代码库……

使用上下文分析器优化LLM调用并减少Token使用

提交意见反馈

论文页面 - TokenPilot：面向LLM代理的缓存高效上下文管理

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏集 1

相似文章

@rohanpaul_ai: TokenPilot 通过摄入感知压缩和生命周期感知驱逐来降低 LLM 智能体成本，实现了 61–87% 的成本降低。

@omarsar0: // The Efficiency Frontier // 关于上下文管理的有趣论文。随着代理在多次交互中重复使用相同的文档和历史记录……

更少上下文，更智能代理：面向长周期工具使用的LLM代理的高效上下文工程

@IntuitMachine: PEEK: 这个1K Token地图刚刚终结了长上下文税 你的LLM代理正在读取同一个50K Token的代码库……

使用上下文分析器优化LLM调用并减少Token使用

提交意见反馈

@IntuitMachine: PEEK: 这个1K Token地图刚刚终结了长上下文税你的LLM代理正在读取同一个50K Token的代码库……