标签
Headroom 是一个上下文压缩层,可以将 AI agent 读取的 Token 成本降低 60-95%,支持零代码更改的代理模式,且不降低模型回答质量。
本文提出Telegraph English,一种可读的符号格式用于上下文压缩,在多跳问答数据集上优于匹配预算的基线方法,更密集地保留了实体内容。
分析六种AI编程智能体(Claude Code、Codex CLI、OpenCode、Cline、Cursor、Amp)如何趋同于分层渐进式压缩以处理长上下文,它们在保护内容(用户消息、有状态工具输出)以及是否告知模型压缩方面存在差异,并在成本与准确性之间进行权衡。
本文提出隐上下文语言模型(LCLMs),这是一系列编码器-解码器压缩器,通过架构搜索和大规模预训练高效处理长上下文,在准确性、速度和内存使用上优于传统KV缓存方法。
一款名为Headroom的开源工具采用可逆的Compress-Cache-Retrieve架构,能将AI智能体上下文压缩高达90%,使模型能够在需要时检索原始细节,而非永久丢弃。
Headroom 是一个开源工具,可将 AI Agent 读取的工具输出、日志、RAG 片段等压缩 60-95%,同时保持答案质量不变,支持可逆压缩和跨 Agent 共享记忆。
LongAttnComp 通过微调轻量级交叉注意力层并引入 token 级分块、top-p 算法、位置重排序和查询解析器,将 AttnComp 适配到长上下文推理。它在代码调试等长上下文任务上取得了强劲性能,并能跨多个模型家族迁移。
腾讯云数据库团队开源了 TencentDB Agent Memory,一个解决 AI Agent 长任务上下文退化问题的运行时系统,通过三层回溯与动态压缩机制将短期上下文压缩纳入记忆系统,并整合了长期记忆流水线,是 AI Agent 记忆系统从“数据库”走向“运行时”的标志性尝试。
Headroom 是一个开源工具,能在 AI 代理读取上下文(工具输出、日志、RAG 块、对话历史等)之前对其进行压缩,在到达 LLM 时可减少 60–95% 的令牌数量,同时保留答案质量。它支持多种集成模式,包括库、代理、代理包装和 MCP 服务器,并提供可逆压缩与跨代理记忆。
腾讯AI团队开源了Agent记忆系统,通过实时上下文压缩、Mermaid任务地图和Persona记忆三种方法,显著提升长对话中的token效率和agent一致性,token消耗降低61%,人格一致性从48%提升至76%。
lean-ctx 是一个基于 Rust 的开源上下文运行时,通过文件读取压缩和 Shell 输出优化,将 Claude Code、Cursor、Copilot 等 AI 编程助手的 token 成本降低 60–95%。它以 Shell Hook 和 MCP Server 的形式运行,提供 56 个工具及多种读取模式。
TACO 是一个自我演化的框架,可自动发现并优化长周期终端智能体的上下文压缩规则。
TACO 提出了一种自我演化压缩框架,可自动学习压缩冗余的终端交互历史,在 TerminalBench 及其他代码智能体基准上将 token 开销降低约 10%,准确率提升 1–4%。