自压缩语言模型代理

Hugging Face Daily Papers 论文

摘要

SelfCompact是一种脚手架方法,让语言模型自主决定何时以及如何压缩长智能体轨迹,相比固定间隔方法,在减少token成本的同时实现了更好的性能。

由思维链和工具调用组成的长智能体轨迹会累积陈旧内容,从而锚定后续生成,并最终超出上下文窗口。现有的脚手架通过基于固定token阈值的压缩来缓解此问题。这种触发方式不考虑轨迹结构,可能导致在推理或搜索过程中部分结果被误丢弃。我们提出SelfCompact,一种允许模型自身决定何时以及如何压缩的脚手架。具体来说,它结合了两个推理时元素:(i) 模型调用的压缩工具,用于总结累积的上下文,以及(ii) 一个轻量级准则,指定何时触发压缩(子任务已解决,或轨迹正在收敛)以及何时抑制压缩(推理进行中,或陷入停滞)。两者缺一不可。仅靠工具在开放权重模型中的使用并不均匀,常常在无帮助的时刻被调用或根本不调用;仅靠准则无法行动。两者结合,无需任何微调或外部监督即可实现有效的自适应压缩。我们在六个基准测试(竞赛数学和智能体搜索)和七个模型上展示了实验结果。结果表明,SelfCompact在远低于固定间隔总结的token成本下达到了与之匹配或更优的性能,相比无总结基准在数学任务上最高提升18.1个百分点,在智能体搜索上提升5-9个百分点,同时每个问题的成本降低30-70%。我们的结果揭示了一个元认知鸿沟:尽管未经提示的模型无法可靠判断自身上下文何时腐化,但一个轻量级准则弥合了这一鸿沟,将何时压缩重构为一种脚手架无需训练即可提供的能力。
查看原文
查看缓存全文

缓存时间: 2026/06/23 05:40

论文页面 - Self-Compacting Language Model Agents

来源:https://huggingface.co/papers/2606.23525

摘要

SelfCompact 是一种脚手架方法,使模型能够自主确定最佳压缩时机与方式,以管理长智能体轨迹,相比固定间隔方法,在降低 Token 成本的同时实现了更优性能。

由思维链与工具调用组成的长智能体轨迹会积累陈旧内容,锚定后续生成,并最终超出上下文窗口。现有脚手架通过在 Token 阈值处触发固定间隔压缩来缓解此问题。这种触发机制不关注轨迹结构,可能导致中途推导或中途搜索中的部分结果被丢弃。我们提出 SelfCompact,一种允许模型自身决定何时压缩以及如何压缩的脚手架。具体而言,它结合了两个推理时元素:(i) 一个压缩工具,模型通过调用它来总结累积的上下文;(ii) 一个轻量级准则,规定何时触发(子任务已解决,或轨迹趋于收敛)以及何时抑制(推导中途,或陷入卡顿)。两者缺一不可。仅靠工具在不同开源权重模型上的使用不均匀,经常在无益的时刻被调用或根本不调用;仅靠准则无法执行。二者结合,无需任何微调或外部监督即可实现有效的自适应压缩。我们在六个基准测试(竞技数学与智能体搜索)和七个模型上展示了实证结果。结果表明,SelfCompact 以更低的 Token 成本,达到或超过了固定间隔摘要的性能,相比无摘要基线,在数学任务上最高提升 18.1 分,在智能体搜索上提升 5-9 分,且每题成本降低 30%-70%。我们的结果揭示了一个元认知鸿沟:虽然未经提示的模型无法可靠判断自身上下文何时“腐烂”,但一个轻量级准则弥合了这一鸿沟,将“何时压缩”重塑为脚手架无需训练即可提供的能力。

查看 arXiv 页面 (https://arxiv.org/abs/2606.23525)
查看 PDF (https://arxiv.org/pdf/2606.23525)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.23525)

引用本论文的模型 0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.23525 以便从此页面关联。

引用本论文的数据集 0

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.23525 以便从此页面关联。

引用本论文的 Space 0

暂无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.23525 以便从此页面关联。

包含本论文的收藏集 0

暂无收藏集包含此论文

请将此论文添加至一个收藏集 (https://huggingface.co/new-collection) 以便从此页面关联。

相似文章

PACE: 双时间尺度自进化小语言模型智能体

arXiv cs.LG

PACE 提出了一种双时间尺度框架,用于小语言模型智能体的自进化,协调低风险的提示精炼与高风险的控制器逻辑更新,在多个基准上实现了高达 +9.2% 的相对提升。

长时段LLM智能体服务的并行上下文压缩

arXiv cs.AI

介绍了用于长时间范围LLM智能体的并行上下文压缩,实现了对摘要量的细粒度控制,并相比多个骨干模型上的顺序同步压缩,降低了端到端延迟。

自巩固语言模型:从上下文中持续整合知识

arXiv cs.CL

本文介绍了自巩固语言模型(SCoL),这是一种利用元强化学习将当前上下文写入模型权重以实现持续知识整合的框架。实验表明,在问答任务和长上下文巩固任务中,该方法在知识获取和保留方面均优于基线方法。

语言模型代理的自我编程执行

arXiv cs.AI

本文介绍了自我编程执行(SPE),这是一种代理架构,其中语言模型生成其自身的编排程序,而非依赖固定的外部框架。文章提出了“Spell”,一种基于 Lisp 的语言,支持自我编辑和重新求值,并展示了前沿模型能够利用该方法成功执行代理任务。