标签
TokenPilot 通过摄入感知压缩和生命周期感知驱逐来降低 LLM 智能体成本,在 PinchBench 和 Claw-Eval 上实现了 61–87% 的成本降低,且得分具备竞争力。
TokenPilot是一个双粒度上下文管理框架,通过稳定提示前缀和保守管理上下文片段,降低长时程LLM会话中的推理成本。在基准测试中实现了61-87%的成本降低,同时保持竞争性性能。