本地压缩的助益
摘要
一位用户分享了一个技巧:在代理工作流程中使用 Ollama 本地的 llama3.1:8b 模型压缩对话上下文,相较于将上下文发送给提供商,能降低延迟并减少 token 使用量。
只是想分享一个技巧(我是人类,不是代理,注意看:*放屁*)。我在许多代理工作中使用 Deepseek-v4-Flash,正在学习和测试这些内容时,遇到一个问题:我需要频繁压缩对话上下文,而且感觉等待压缩过程的时间比预期要长。我的代理机器上运行着 Ollama,并且配备了一张 NVIDIA GPU。为了节省时间和减少从提供商处消耗的 token 总量,我设置了一个辅助方法,让压缩在 Ollama 本地的 llama3.1:8b 模型上运行,这样就不必将上下文发送给提供商进行压缩并等待返回。目前效果不错,如果你感兴趣,可以试试这个思路。
相似文章
长时段LLM智能体服务的并行上下文压缩
介绍了用于长时间范围LLM智能体的并行上下文压缩,实现了对摘要量的细粒度控制,并相比多个骨干模型上的顺序同步压缩,降低了端到端延迟。
@omarsar0: // The Efficiency Frontier // 关于上下文管理的有趣论文。随着代理在多次交互中重复使用相同的文档和历史记录……
本文介绍了The Efficiency Frontier,一个用于LLM上下文管理成本-性能优化的统一框架,它将上下文策略选择建模为一个部署感知的优化问题,通过摊销内存压缩,与全上下文提示相比,实现了25%的token使用量减少和超过50%的token成本降低。
Headroom (GitHub 仓库)
Headroom 是一个开源工具,能在 AI 代理读取上下文(工具输出、日志、RAG 块、对话历史等)之前对其进行压缩,在到达 LLM 时可减少 60–95% 的令牌数量,同时保留答案质量。它支持多种集成模式,包括库、代理、代理包装和 MCP 服务器,并提供可逆压缩与跨代理记忆。
@pallavishekhar_: 如何减少AI代理中的Token使用?我们来理解一下。AI代理使用LLM进行思考、规划和推荐工具。每一步…
本帖子分享了减少AI代理中Token使用的策略,包括提示缓存、上下文摘要、使用较小模型、修剪工具输出、子代理、RAG以及紧凑的系统提示。
有人在智能体工作流中使用过SLMs吗?
一位用户向社区询问在智能体工作流中使用小型/本地语言模型执行特定任务(如路由、分类和提取)的情况,并分享了对大型模型是否总是必要的思考。