一种基于观测上下文压缩的高效终端智能体自我演化框架
摘要
TACO 提出了一种自我演化压缩框架,可自动学习压缩冗余的终端交互历史,在 TerminalBench 及其他代码智能体基准上将 token 开销降低约 10%,准确率提升 1–4%。
查看缓存全文
缓存时间: 2026/04/23 11:54
论文页面 - 通过观测上下文压缩实现高效终端 Agent 的自演化框架
来源: https://huggingface.co/papers/2604.19572
作者:,,,,,,,,,
摘要
TACO 是一个自演化压缩框架,能够自动从交互轨迹中发现并精炼压缩规则,在降低 token 开销的同时提升长程 Agent 的表现。
随着模型能力不断提升,研究重心逐渐转向长程、多轮、以终端为中心的智能体任务(https://huggingface.co/papers?q=terminal-centric%20agentic%20tasks)。这类任务通常将原始环境反馈保留在交互历史中,以供后续决策使用。然而,反复保留此类反馈会带来大量冗余,使累计 token 成本随步数呈二次增长,阻碍长程推理。虽然观测压缩(https://huggingface.co/papers?q=observation%20compression)可以缓解该问题,但终端环境的异构性使得基于启发式或固定提示的方法难以泛化。我们提出 TACO——即插即用、自演化的 Terminal Agent Compression(https://huggingface.co/papers?q=Terminal%20Agent%20Compression)框架,可自动从交互轨迹(https://huggingface.co/papers?q=interaction%20trajectories)中为现有终端 Agent 发现并精炼压缩规则。在 TerminalBench(https://huggingface.co/papers?q=TerminalBench)(TB 1.0 与 TB 2.0)以及四个额外终端相关基准(SWE-Bench Lite、CompileBench、DevEval、CRUST-Bench)上的实验表明,TACO 在主流 Agent 框架(https://huggingface.co/papers?q=agent%20frameworks)和强力骨干模型(https://huggingface.co/papers?q=backbone%20models)上均能稳定提升性能。配合 MiniMax-2.5,它在大多数基准上提升性能的同时,token 开销降低约 10%。在 TerminalBench 上,它为强智能体模型带来 1%–4% 的持续增益,并在相同 token 预算下进一步提升准确率约 2%–3%。这些结果证明了自演化、任务感知的压缩对终端 Agent 的有效性与泛化能力。
查看 arXiv 页面 (https://arxiv.org/abs/2604.19572)
查看 PDF (https://arxiv.org/pdf/2604.19572)
GitHub3 (https://github.com/multimodal-art-projection/TACO)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.19572)
在 Agent 中获取本文:
hf papers read 2604.19572
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型链接到本文
在模型 README.md 中引用 arxiv.org/abs/2604.19572 即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集链接到本文
在数据集 README.md 中引用 arxiv.org/abs/2604.19572 即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 链接到本文
在 Space README.md 中引用 arxiv.org/abs/2604.19572 即可在此页面显示链接。
包含该论文的收藏 0
暂无收藏包含本文
将本文添加到收藏 (https://huggingface.co/new-collection) 即可在此页面显示链接。
相似文章
@omarsar0:AI 开发者请留意,若你在开发长周期终端智能体,这条推文尤其值得关注……
TACO 是一个自我演化的框架,可自动发现并优化长周期终端智能体的上下文压缩规则。
将本地代理转变为自我优化代理
一个自我优化的智能体管线,在TerminalBench上将基准性能从约30%提升至约90%,并且可以通过记录交互、使用本地模型进行反思、以及将经验注入未来的系统提示中,扩展应用到日常对话场景。
我在尝试为不同会话中的不同代理确保上下文连续性中学到的东西
作者介绍了 AICTX,一个开源工具,它能在编码代理会话之间保留结构化的操作状态,从而减少代理每次重新发现仓库上下文的需求。
Terminal-World: 通过智能体技能扩展终端代理环境
Terminal-World 引入了一个全自动流水线,利用智能体技能为终端代理合成高质量的训练数据,使得模型仅使用 1.2% 的训练数据就能超越基线。该方法从技能原语中共同推导出任务指令、环境和教师轨迹。
TacoMAS:基于大语言模型的多智能体系统中拓扑与能力的测试时共演化
本文介绍了 TacoMAS,这是一个用于大语言模型驱动的多智能体系统中智能体能力与通信拓扑测试时共演化的框架。研究表明,与现有基线相比,联合调整快速能力环和慢速拓扑环能够提升性能并增强稳定性。