自压缩语言模型代理

Hugging Face Daily Papers 2026/06/22 00:00 论文

摘要

SelfCompact是一种脚手架方法，让语言模型自主决定何时以及如何压缩长智能体轨迹，相比固定间隔方法，在减少token成本的同时实现了更好的性能。

由思维链和工具调用组成的长智能体轨迹会累积陈旧内容，从而锚定后续生成，并最终超出上下文窗口。现有的脚手架通过基于固定token阈值的压缩来缓解此问题。这种触发方式不考虑轨迹结构，可能导致在推理或搜索过程中部分结果被误丢弃。我们提出SelfCompact，一种允许模型自身决定何时以及如何压缩的脚手架。具体来说，它结合了两个推理时元素：(i) 模型调用的压缩工具，用于总结累积的上下文，以及(ii) 一个轻量级准则，指定何时触发压缩（子任务已解决，或轨迹正在收敛）以及何时抑制压缩（推理进行中，或陷入停滞）。两者缺一不可。仅靠工具在开放权重模型中的使用并不均匀，常常在无帮助的时刻被调用或根本不调用；仅靠准则无法行动。两者结合，无需任何微调或外部监督即可实现有效的自适应压缩。我们在六个基准测试（竞赛数学和智能体搜索）和七个模型上展示了实验结果。结果表明，SelfCompact在远低于固定间隔总结的token成本下达到了与之匹配或更优的性能，相比无总结基准在数学任务上最高提升18.1个百分点，在智能体搜索上提升5-9个百分点，同时每个问题的成本降低30-70%。我们的结果揭示了一个元认知鸿沟：尽管未经提示的模型无法可靠判断自身上下文何时腐化，但一个轻量级准则弥合了这一鸿沟，将何时压缩重构为一种脚手架无需训练即可提供的能力。

查看原文

查看缓存全文

缓存时间: 2026/06/23 05:40

论文页面 - Self-Compacting Language Model Agents

来源：https://huggingface.co/papers/2606.23525

摘要

SelfCompact 是一种脚手架方法，使模型能够自主确定最佳压缩时机与方式，以管理长智能体轨迹，相比固定间隔方法，在降低 Token 成本的同时实现了更优性能。

由思维链与工具调用组成的长智能体轨迹会积累陈旧内容，锚定后续生成，并最终超出上下文窗口。现有脚手架通过在 Token 阈值处触发固定间隔压缩来缓解此问题。这种触发机制不关注轨迹结构，可能导致中途推导或中途搜索中的部分结果被丢弃。我们提出 SelfCompact，一种允许模型自身决定何时压缩以及如何压缩的脚手架。具体而言，它结合了两个推理时元素：(i) 一个压缩工具，模型通过调用它来总结累积的上下文；(ii) 一个轻量级准则，规定何时触发（子任务已解决，或轨迹趋于收敛）以及何时抑制（推导中途，或陷入卡顿）。两者缺一不可。仅靠工具在不同开源权重模型上的使用不均匀，经常在无益的时刻被调用或根本不调用；仅靠准则无法执行。二者结合，无需任何微调或外部监督即可实现有效的自适应压缩。我们在六个基准测试（竞技数学与智能体搜索）和七个模型上展示了实证结果。结果表明，SelfCompact 以更低的 Token 成本，达到或超过了固定间隔摘要的性能，相比无摘要基线，在数学任务上最高提升 18.1 分，在智能体搜索上提升 5-9 分，且每题成本降低 30%-70%。我们的结果揭示了一个元认知鸿沟：虽然未经提示的模型无法可靠判断自身上下文何时“腐烂”，但一个轻量级准则弥合了这一鸿沟，将“何时压缩”重塑为脚手架无需训练即可提供的能力。

查看 arXiv 页面 (https://arxiv.org/abs/2606.23525)
查看 PDF (https://arxiv.org/pdf/2606.23525)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.23525)

引用本论文的模型 0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.23525 以便从此页面关联。

引用本论文的数据集 0

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.23525 以便从此页面关联。

引用本论文的 Space 0

暂无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.23525 以便从此页面关联。

包含本论文的收藏集 0

暂无收藏集包含此论文

请将此论文添加至一个收藏集 (https://huggingface.co/new-collection) 以便从此页面关联。

自压缩语言模型代理

论文页面 - Self-Compacting Language Model Agents

摘要

引用本论文的模型 0

引用本论文的数据集 0

引用本论文的 Space 0

包含本论文的收藏集 0

相似文章

PACE: 双时间尺度自进化小语言模型智能体

GenericAgent：一种通过上下文信息密度最大化实现高效自我演进的通用LLM智能体（V1.0）

长时段LLM智能体服务的并行上下文压缩

自巩固语言模型：从上下文中持续整合知识

语言模型代理的自我编程执行

提交意见反馈