为代理式编码扩展测试时计算

Hugging Face Daily Papers 论文

摘要

一种面向代理式编码的测试时扩展框架,可将 rollout 轨迹压缩为结构化摘要,并通过递归投票/PDR 将 Claude-4.5-Opus 在 SWE-Bench Verified 上的成绩提升至 77.6%。

测试时扩展已成为提升大语言模型的有力手段。然而,现有方法最适合可直接比较、排序或精炼的短输出。长程编码代理违背了这一前提:每次尝试都会生成一段冗长的动作、观察、错误与部分进展构成的轨迹。在此场景下,主要挑战不再是生成更多尝试,而是将过往经验表示成可被有效选择与复用的形式。我们提出一种面向代理式编码的测试时扩展框架,基于 rollout 轨迹的紧凑表示。该框架将每次 rollout 转化为结构化摘要,保留关键假设、进展与失败模式,同时丢弃低信号痕迹。该表示支持两种互补的推理时扩展:并行扩展方面,我们引入递归锦标赛投票(RTV),通过小组比较递归缩小 rollout 摘要群体;顺序扩展方面,我们将 Parallel-Distill-Refine(PDR)适配到代理场景,让新 rollout 以先前尝试蒸馏出的摘要为条件。我们的方法在 SWE-Bench Verified 与 Terminal-Bench v2.0 上持续提升前沿编码代理的表现。例如,使用本方法后,Claude-4.5-Opus 在 SWE-Bench Verified(mini-SWE-agent)上从 70.9% 提升至 77.6%,在 Terminal-Bench v2.0(Terminus 1)上从 46.9% 提升至 59.1%。结果表明,长程代理的测试时扩展本质上是表示、选择与复用的问题。
查看原文
查看缓存全文

缓存时间: 2026/04/23 07:47

论文页面 - 扩展测试时计算,赋能 Agent 编程

来源: https://huggingface.co/papers/2604.16529
作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

面向 Agent 编程的测试时扩展框架,采用紧凑的轨迹表示与递归投票/并行蒸馏-精修方法,提升长程任务表现。

测试时扩展(https://huggingface.co/papers?q=Test-time%20scaling)已成为增强大语言模型的利器。然而,现有方法仅适用于可直接比较、排序或精修的短输出。长程编程 Agent 打破这一前提:每次尝试都会产生冗长的动作、观察、错误与部分进展轨迹。此时,核心挑战不再是“多试几次”,而是如何表征过往经验,以便高效选择与复用。我们提出面向 Agent 编程(https://huggingface.co/papers?q=agentic%20coding)的测试时扩展框架,基于 rollout 轨迹(https://huggingface.co/papers?q=rollout%20trajectories)的紧凑表示。该框架将每条轨迹转化为结构化摘要,保留关键假设、进展与失败模式,同时剔除低信号痕迹。该表示支持两种互补的推理时扩展:并行侧,我们提出递归锦标赛投票(https://huggingface.co/papers?q=Recursive%20Tournament%20Voting,RTV),通过小组比较递归缩小候选摘要集合;串行侧,我们将并行蒸馏-精修(https://huggingface.co/papers?q=Parallel-Distill-Refine,PDR)适配到 Agent 场景,让新 rollout 以先前摘要为条件。在 SWE-Bench Verified(https://huggingface.co/papers?q=SWE-Bench%20Verified)与 Terminal-Bench v2.0(https://huggingface.co/papers?q=Terminal-Bench%20v2.0)上,我们的方法持续提升前沿编程 Agent 的表现。例如,Claude-4.5-Opus 在 SWE-Bench Verified(mini-SWE-agent)上从 70.9% 提升至 77.6%,在 Terminal-Bench v2.0(Terminus 1)上从 46.9% 提升至 59.1%。结果表明,长程 Agent 的测试时扩展本质上是表征、选择与复用的问题。

查看 arXiv 页面(https://arxiv.org/abs/2604.16529)查看 PDF(https://arxiv.org/pdf/2604.16529)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.16529)

引用该论文的模型 0

暂无模型链接该论文

在模型 README.md 中引用 arxiv.org/abs/2604.16529 即可在此显示。

引用该论文的数据集 0

暂无数据集链接该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.16529 即可在此显示。

引用该论文的 Spaces 0

暂无 Space 链接该论文

在 Space README.md 中引用 arxiv.org/abs/2604.16529 即可在此显示。

收录该论文的合集 0

暂无合集收录该论文

将该论文添加到合集(https://huggingface.co/new-collection)即可在此显示。

相似文章

代理式测试时扩展(GitHub 仓库)

TLDR AI

AutoTTS 是一个开源工具,它利用代理发现机制,自动为大型语言模型(LLM)寻找最优的测试时扩展策略,通过基于重放的评估显著降低 token 消耗和成本。

CogScale: 可扩展的序列处理基准测试

arXiv cs.AI

CogScale 是一个包含14个可扩展合成任务的基准测试,旨在隔离并评估序列处理模型中的认知与记忆能力。它提供了一个轻量级框架,用于快速验证架构设计,并在严格的参数预算下评估了七种架构。