自压缩语言模型代理
摘要
SelfCompact是一种脚手架方法,让语言模型自主决定何时以及如何压缩长智能体轨迹,相比固定间隔方法,在减少token成本的同时实现了更好的性能。
查看缓存全文
缓存时间: 2026/06/23 05:40
论文页面 - Self-Compacting Language Model Agents
来源:https://huggingface.co/papers/2606.23525
摘要
SelfCompact 是一种脚手架方法,使模型能够自主确定最佳压缩时机与方式,以管理长智能体轨迹,相比固定间隔方法,在降低 Token 成本的同时实现了更优性能。
由思维链与工具调用组成的长智能体轨迹会积累陈旧内容,锚定后续生成,并最终超出上下文窗口。现有脚手架通过在 Token 阈值处触发固定间隔压缩来缓解此问题。这种触发机制不关注轨迹结构,可能导致中途推导或中途搜索中的部分结果被丢弃。我们提出 SelfCompact,一种允许模型自身决定何时压缩以及如何压缩的脚手架。具体而言,它结合了两个推理时元素:(i) 一个压缩工具,模型通过调用它来总结累积的上下文;(ii) 一个轻量级准则,规定何时触发(子任务已解决,或轨迹趋于收敛)以及何时抑制(推导中途,或陷入卡顿)。两者缺一不可。仅靠工具在不同开源权重模型上的使用不均匀,经常在无益的时刻被调用或根本不调用;仅靠准则无法执行。二者结合,无需任何微调或外部监督即可实现有效的自适应压缩。我们在六个基准测试(竞技数学与智能体搜索)和七个模型上展示了实证结果。结果表明,SelfCompact 以更低的 Token 成本,达到或超过了固定间隔摘要的性能,相比无摘要基线,在数学任务上最高提升 18.1 分,在智能体搜索上提升 5-9 分,且每题成本降低 30%-70%。我们的结果揭示了一个元认知鸿沟:虽然未经提示的模型无法可靠判断自身上下文何时“腐烂”,但一个轻量级准则弥合了这一鸿沟,将“何时压缩”重塑为脚手架无需训练即可提供的能力。
查看 arXiv 页面 (https://arxiv.org/abs/2606.23525)
查看 PDF (https://arxiv.org/pdf/2606.23525)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.23525)
引用本论文的模型 0
暂无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.23525 以便从此页面关联。
引用本论文的数据集 0
暂无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.23525 以便从此页面关联。
引用本论文的 Space 0
暂无 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.23525 以便从此页面关联。
包含本论文的收藏集 0
暂无收藏集包含此论文
请将此论文添加至一个收藏集 (https://huggingface.co/new-collection) 以便从此页面关联。
相似文章
PACE: 双时间尺度自进化小语言模型智能体
PACE 提出了一种双时间尺度框架,用于小语言模型智能体的自进化,协调低风险的提示精炼与高风险的控制器逻辑更新,在多个基准上实现了高达 +9.2% 的相对提升。
GenericAgent:一种通过上下文信息密度最大化实现高效自我演进的通用LLM智能体(V1.0)
本文介绍了 GenericAgent,这是一种旨在最大化上下文信息密度的自我演进式大语言模型智能体系统。它通过分层记忆、可复用的标准操作流程(SOP)以及高效压缩技术,解决了长周期任务的局限性,在与领先智能体的对比中,以更少的 Token 消耗实现了更优的性能表现。
长时段LLM智能体服务的并行上下文压缩
介绍了用于长时间范围LLM智能体的并行上下文压缩,实现了对摘要量的细粒度控制,并相比多个骨干模型上的顺序同步压缩,降低了端到端延迟。
自巩固语言模型:从上下文中持续整合知识
本文介绍了自巩固语言模型(SCoL),这是一种利用元强化学习将当前上下文写入模型权重以实现持续知识整合的框架。实验表明,在问答任务和长上下文巩固任务中,该方法在知识获取和保留方面均优于基线方法。
语言模型代理的自我编程执行
本文介绍了自我编程执行(SPE),这是一种代理架构,其中语言模型生成其自身的编排程序,而非依赖固定的外部框架。文章提出了“Spell”,一种基于 Lisp 的语言,支持自我编辑和重新求值,并展示了前沿模型能够利用该方法成功执行代理任务。