TokenPilot:面向LLM代理的缓存高效上下文管理

Hugging Face Daily Papers 论文

摘要

TokenPilot是一个双粒度上下文管理框架,通过稳定提示前缀和保守管理上下文片段,降低长时程LLM会话中的推理成本。在基准测试中实现了61-87%的成本降低,同时保持竞争性性能。

随着LLM代理被部署到长时程会话中,上下文累积导致推理成本上升。现有方法采用文本剪枝或动态内存驱逐来最小化token占用,但其无约束的序列突变会改变布局,引入前缀不匹配和缓存失效。这揭示了文本稀疏性与提示缓存连续性之间的关键权衡。为此,我们提出TokenPilot,一个双粒度上下文管理框架。全局层面,摄入感知压缩作为框架约束,在摄入入口处稳定提示前缀并消除开放世界环境噪声。局部层面,生命周期感知驱逐持续监控上下文片段当前的残余效用,强制执行保守的批处理轮次调度,仅在任务相关性过期时才卸载内容片段。在PinchBench和Claw-Eval上的实验(包括隔离模式和连续模式)表明,TokenPilot在隔离模式下将成本降低61%和56%,在连续模式下降低61%和87%,同时相比先前系统保持了竞争性性能。TokenPilot已集成到LightMem2中,地址为https://github.com/zjunlp/LightMem2。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:34

论文页面 - TokenPilot:面向LLM代理的缓存高效上下文管理

来源:https://huggingface.co/papers/2606.17016 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

TokenPilot 是一个双粒度上下文管理框架,通过稳定提示前缀并保守管理上下文片段,降低长时 LLM 会话中的推理成本。

随着 LLM 代理 (https://huggingface.co/papers?q=LLM%20agents) 被部署到长时会话中,上下文积累导致推理成本飙升。现有方法采用文本剪枝或动态内存驱逐来最小化 token footprints (https://huggingface.co/papers?q=token%20footprints);然而,这些方法无约束的序列突变改变了布局,引发前缀不匹配和缓存失效。这揭示了文本稀疏性与 prompt cache continuity (https://huggingface.co/papers?q=prompt%20cache%20continuity) 之间的关键权衡。为解决这一问题,我们提出 TokenPilot,这是一种双粒度的 context management (https://huggingface.co/papers?q=context%20management) 框架。全局层面,Ingestion-Aware Compaction (https://huggingface.co/papers?q=Ingestion-Aware%20Compaction) 作为框架约束,在摄入门控处稳定提示前缀并消除开放世界的环境噪声。局部层面,Lifecycle-Aware Eviction (https://huggingface.co/papers?q=Lifecycle-Aware%20Eviction) 监控上下文片段的残余效用 residual utility (https://huggingface.co/papers?q=residual%20utility),强制执行保守的 batch-turn schedule (https://huggingface.co/papers?q=batch-turn%20schedule),仅当任务相关性过期时才卸载内容片段。在 PinchBench 和 Claw-Eval 上的独立模式 isolated mode (https://huggingface.co/papers?q=isolated%20mode) 与连续模式 continuous mode (https://huggingface.co/papers?q=continuous%20mode) 实验表明,TokenPilot 在独立模式下分别降低成本 61% 和 56%,在连续模式下分别降低成本 61% 和 87%,同时保持与以往系统相当的性能。TokenPilot 已集成到 LightMem2 中,地址为 https://github.com/zjunlp/LightMem2。

查看 arXiv 页面 (https://arxiv.org/abs/2606.17016) 查看 PDF (https://arxiv.org/pdf/2606.17016) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.17016)

在代理中获取此论文:

hf papers read 2606.17016

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.17016 可从本页面链接。

引用此论文的数据集 0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.17016 可从本页面链接。

引用此论文的 Space 0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.17016 可从本页面链接。

包含此论文的收藏集 1

相似文章