为代理式编码扩展测试时计算
摘要
一种面向代理式编码的测试时扩展框架,可将 rollout 轨迹压缩为结构化摘要,并通过递归投票/PDR 将 Claude-4.5-Opus 在 SWE-Bench Verified 上的成绩提升至 77.6%。
查看缓存全文
缓存时间: 2026/04/23 07:47
论文页面 - 扩展测试时计算,赋能 Agent 编程
来源: https://huggingface.co/papers/2604.16529
作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
面向 Agent 编程的测试时扩展框架,采用紧凑的轨迹表示与递归投票/并行蒸馏-精修方法,提升长程任务表现。
测试时扩展(https://huggingface.co/papers?q=Test-time%20scaling)已成为增强大语言模型的利器。然而,现有方法仅适用于可直接比较、排序或精修的短输出。长程编程 Agent 打破这一前提:每次尝试都会产生冗长的动作、观察、错误与部分进展轨迹。此时,核心挑战不再是“多试几次”,而是如何表征过往经验,以便高效选择与复用。我们提出面向 Agent 编程(https://huggingface.co/papers?q=agentic%20coding)的测试时扩展框架,基于 rollout 轨迹(https://huggingface.co/papers?q=rollout%20trajectories)的紧凑表示。该框架将每条轨迹转化为结构化摘要,保留关键假设、进展与失败模式,同时剔除低信号痕迹。该表示支持两种互补的推理时扩展:并行侧,我们提出递归锦标赛投票(https://huggingface.co/papers?q=Recursive%20Tournament%20Voting,RTV),通过小组比较递归缩小候选摘要集合;串行侧,我们将并行蒸馏-精修(https://huggingface.co/papers?q=Parallel-Distill-Refine,PDR)适配到 Agent 场景,让新 rollout 以先前摘要为条件。在 SWE-Bench Verified(https://huggingface.co/papers?q=SWE-Bench%20Verified)与 Terminal-Bench v2.0(https://huggingface.co/papers?q=Terminal-Bench%20v2.0)上,我们的方法持续提升前沿编程 Agent 的表现。例如,Claude-4.5-Opus 在 SWE-Bench Verified(mini-SWE-agent)上从 70.9% 提升至 77.6%,在 Terminal-Bench v2.0(Terminus 1)上从 46.9% 提升至 59.1%。结果表明,长程 Agent 的测试时扩展本质上是表征、选择与复用的问题。
查看 arXiv 页面(https://arxiv.org/abs/2604.16529)查看 PDF(https://arxiv.org/pdf/2604.16529)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.16529)
引用该论文的模型 0
暂无模型链接该论文
在模型 README.md 中引用 arxiv.org/abs/2604.16529 即可在此显示。
引用该论文的数据集 0
暂无数据集链接该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.16529 即可在此显示。
引用该论文的 Spaces 0
暂无 Space 链接该论文
在 Space README.md 中引用 arxiv.org/abs/2604.16529 即可在此显示。
收录该论文的合集 0
暂无合集收录该论文
将该论文添加到合集(https://huggingface.co/new-collection)即可在此显示。
相似文章
代理式测试时扩展(GitHub 仓库)
AutoTTS 是一个开源工具,它利用代理发现机制,自动为大型语言模型(LLM)寻找最优的测试时扩展策略,通过基于重放的评估显著降低 token 消耗和成本。
我将测试时计算扩展到 Qwen-3.6-27B 和 Gemma-4-31B,以在代码优化和加速方面超越 Claude Mythos。
本文描述了一个脚手架(scaffold),它通过在 Qwen-3.6-27B 和 Gemma-4-31B 上使用迭代修正和分支探索来扩展测试时计算,从而在代码优化方面超越 Claude Mythos。文中附有论文链接和 GitHub 仓库地址。
CogScale: 可扩展的序列处理基准测试
CogScale 是一个包含14个可扩展合成任务的基准测试,旨在隔离并评估序列处理模型中的认知与记忆能力。它提供了一个轻量级框架,用于快速验证架构设计,并在严格的参数预算下评估了七种架构。
我用4B参数模型构建的编码智能体在基准测试中达到87%,诀窍如下
作者构建了SmallCode,一个针对小型本地模型优化的编码智能体,通过复合工具、改进循环和令牌预算等技术,在4B参数模型上实现了87%的基准测试成功率。
@AnthropicAI:我们的最新经济研究引入了一个框架,用于跟踪Claude Code的扩展情况。谁在使用Claude Code,以及…
Anthropic的最新经济研究分析了约40万次Claude Code会话,发现对于成功的代理编码,领域专业知识比编码技能更重要,并且任务价值在七个月内增加了约25%。