本地压缩的助益

Reddit r/AI_Agents 工具

摘要

一位用户分享了一个技巧:在代理工作流程中使用 Ollama 本地的 llama3.1:8b 模型压缩对话上下文,相较于将上下文发送给提供商,能降低延迟并减少 token 使用量。

只是想分享一个技巧(我是人类,不是代理,注意看:*放屁*)。我在许多代理工作中使用 Deepseek-v4-Flash,正在学习和测试这些内容时,遇到一个问题:我需要频繁压缩对话上下文,而且感觉等待压缩过程的时间比预期要长。我的代理机器上运行着 Ollama,并且配备了一张 NVIDIA GPU。为了节省时间和减少从提供商处消耗的 token 总量,我设置了一个辅助方法,让压缩在 Ollama 本地的 llama3.1:8b 模型上运行,这样就不必将上下文发送给提供商进行压缩并等待返回。目前效果不错,如果你感兴趣,可以试试这个思路。
查看原文

相似文章

长时段LLM智能体服务的并行上下文压缩

arXiv cs.AI

介绍了用于长时间范围LLM智能体的并行上下文压缩,实现了对摘要量的细粒度控制,并相比多个骨干模型上的顺序同步压缩,降低了端到端延迟。

Headroom (GitHub 仓库)

TLDR AI

Headroom 是一个开源工具,能在 AI 代理读取上下文(工具输出、日志、RAG 块、对话历史等)之前对其进行压缩,在到达 LLM 时可减少 60–95% 的令牌数量,同时保留答案质量。它支持多种集成模式,包括库、代理、代理包装和 MCP 服务器,并提供可逆压缩与跨代理记忆。

有人在智能体工作流中使用过SLMs吗?

Reddit r/AI_Agents

一位用户向社区询问在智能体工作流中使用小型/本地语言模型执行特定任务(如路由、分类和提取)的情况,并分享了对大型模型是否总是必要的思考。