一种基于观测上下文压缩的高效终端智能体自我演化框架

Hugging Face Daily Papers 论文

摘要

TACO 提出了一种自我演化压缩框架,可自动学习压缩冗余的终端交互历史,在 TerminalBench 及其他代码智能体基准上将 token 开销降低约 10%,准确率提升 1–4%。

随着模型能力不断提升,研究重心逐渐转向长周期、多轮次的终端中心型智能体任务。为支持未来决策,原始环境反馈常被完整保留在交互历史中。然而,反复保留此类反馈带来大量冗余,使 token 成本随步数呈二次增长,阻碍长程推理。虽然观测压缩可缓解该问题,但终端环境异构性强,基于启发式或固定提示的方法难以泛化。我们提出 TACO,一个即插即用、自我演化的 Terminal Agent Compression 框架,可从现有终端智能体的交互轨迹中自动发现并迭代压缩规则。在 TerminalBench(TB 1.0 与 TB 2.0)及四个额外终端相关基准(SWE-Bench Lite、CompileBench、DevEval、CRUST-Bench)上的实验表明,TACO 在主流智能体框架和强骨干模型上均持续提升性能。搭配 MiniMax-2.5,它在多数基准上提升性能的同时,将 token 开销降低约 10%。在 TerminalBench 上,它为强智能体模型带来 1%–4% 的稳定增益,并在相同 token 预算下进一步提升准确率约 2%–3%。结果验证了自我演化、任务感知的压缩对终端智能体的有效性与泛化能力。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/23 11:54

论文页面 - 通过观测上下文压缩实现高效终端 Agent 的自演化框架

来源: https://huggingface.co/papers/2604.19572
作者:,,,,,,,,,

摘要

TACO 是一个自演化压缩框架,能够自动从交互轨迹中发现并精炼压缩规则,在降低 token 开销的同时提升长程 Agent 的表现。

随着模型能力不断提升,研究重心逐渐转向长程、多轮、以终端为中心的智能体任务(https://huggingface.co/papers?q=terminal-centric%20agentic%20tasks)。这类任务通常将原始环境反馈保留在交互历史中,以供后续决策使用。然而,反复保留此类反馈会带来大量冗余,使累计 token 成本随步数呈二次增长,阻碍长程推理。虽然观测压缩(https://huggingface.co/papers?q=observation%20compression)可以缓解该问题,但终端环境的异构性使得基于启发式或固定提示的方法难以泛化。我们提出 TACO——即插即用、自演化的 Terminal Agent Compression(https://huggingface.co/papers?q=Terminal%20Agent%20Compression)框架,可自动从交互轨迹(https://huggingface.co/papers?q=interaction%20trajectories)中为现有终端 Agent 发现并精炼压缩规则。在 TerminalBench(https://huggingface.co/papers?q=TerminalBench)(TB 1.0 与 TB 2.0)以及四个额外终端相关基准(SWE-Bench Lite、CompileBench、DevEval、CRUST-Bench)上的实验表明,TACO 在主流 Agent 框架(https://huggingface.co/papers?q=agent%20frameworks)和强力骨干模型(https://huggingface.co/papers?q=backbone%20models)上均能稳定提升性能。配合 MiniMax-2.5,它在大多数基准上提升性能的同时,token 开销降低约 10%。在 TerminalBench 上,它为强智能体模型带来 1%–4% 的持续增益,并在相同 token 预算下进一步提升准确率约 2%–3%。这些结果证明了自演化、任务感知的压缩对终端 Agent 的有效性与泛化能力。

查看 arXiv 页面 (https://arxiv.org/abs/2604.19572)
查看 PDF (https://arxiv.org/pdf/2604.19572)
GitHub3 (https://github.com/multimodal-art-projection/TACO)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.19572)

在 Agent 中获取本文:

hf papers read 2604.19572

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接到本文

在模型 README.md 中引用 arxiv.org/abs/2604.19572 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集链接到本文

在数据集 README.md 中引用 arxiv.org/abs/2604.19572 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 链接到本文

在 Space README.md 中引用 arxiv.org/abs/2604.19572 即可在此页面显示链接。

包含该论文的收藏 0

暂无收藏包含本文

将本文添加到收藏 (https://huggingface.co/new-collection) 即可在此页面显示链接。

相似文章

使用 MCP 进行代码执行:构建更高效的智能体

Anthropic Engineering

本文来自 Anthropic,探讨了如何将代码执行与 Model Context Protocol (MCP) 相结合,以提升 AI 智能体的效率。文章分析了工具定义和中间结果导致的 token 过载等挑战,并提出代码执行作为降低延迟和成本的解决方案。

@akshay_pachaar: https://x.com/akshay_pachaar/status/2053166970166772052

X AI KOLs Timeline

The article discusses a shift in AI agent tool usage from the 'MCP vs CLI' debate to 'Code Mode,' where agents write code to dynamically import tools, significantly reducing context window usage. It highlights Anthropic's approach and Cloudflare's implementation, demonstrating a 98.7% reduction in token consumption for specific tasks.

EvoTest:面向自我改进智能体系统的进化式测试时学习

arXiv cs.CL

EvoTest 引入了 J-TTL,一个衡量智能体测试时学习能力的基准,并提出了一个进化框架,其中 Actor 智能体玩游戏,而 Evolver 智能体在不进行微调的情况下迭代改进系统的提示、记忆和超参数。该方法在基于复杂文本的游戏中表现出优于基于反思和记忆的基线方法的性能。