为代理式编码扩展测试时计算

Hugging Face Daily Papers 2026/04/16 00:00 论文

摘要

一种面向代理式编码的测试时扩展框架，可将 rollout 轨迹压缩为结构化摘要，并通过递归投票/PDR 将 Claude-4.5-Opus 在 SWE-Bench Verified 上的成绩提升至 77.6%。

测试时扩展已成为提升大语言模型的有力手段。然而，现有方法最适合可直接比较、排序或精炼的短输出。长程编码代理违背了这一前提：每次尝试都会生成一段冗长的动作、观察、错误与部分进展构成的轨迹。在此场景下，主要挑战不再是生成更多尝试，而是将过往经验表示成可被有效选择与复用的形式。我们提出一种面向代理式编码的测试时扩展框架，基于 rollout 轨迹的紧凑表示。该框架将每次 rollout 转化为结构化摘要，保留关键假设、进展与失败模式，同时丢弃低信号痕迹。该表示支持两种互补的推理时扩展：并行扩展方面，我们引入递归锦标赛投票（RTV），通过小组比较递归缩小 rollout 摘要群体；顺序扩展方面，我们将 Parallel-Distill-Refine（PDR）适配到代理场景，让新 rollout 以先前尝试蒸馏出的摘要为条件。我们的方法在 SWE-Bench Verified 与 Terminal-Bench v2.0 上持续提升前沿编码代理的表现。例如，使用本方法后，Claude-4.5-Opus 在 SWE-Bench Verified（mini-SWE-agent）上从 70.9% 提升至 77.6%，在 Terminal-Bench v2.0（Terminus 1）上从 46.9% 提升至 59.1%。结果表明，长程代理的测试时扩展本质上是表示、选择与复用的问题。

查看原文

查看缓存全文

缓存时间: 2026/04/23 07:47

论文页面 - 扩展测试时计算，赋能 Agent 编程

来源: https://huggingface.co/papers/2604.16529
作者：

摘要

面向 Agent 编程的测试时扩展框架，采用紧凑的轨迹表示与递归投票/并行蒸馏-精修方法，提升长程任务表现。

测试时扩展（https://huggingface.co/papers?q=Test-time%20scaling）已成为增强大语言模型的利器。然而，现有方法仅适用于可直接比较、排序或精修的短输出。长程编程 Agent 打破这一前提：每次尝试都会产生冗长的动作、观察、错误与部分进展轨迹。此时，核心挑战不再是“多试几次”，而是如何表征过往经验，以便高效选择与复用。我们提出面向 Agent 编程（https://huggingface.co/papers?q=agentic%20coding）的测试时扩展框架，基于 rollout 轨迹（https://huggingface.co/papers?q=rollout%20trajectories）的紧凑表示。该框架将每条轨迹转化为结构化摘要，保留关键假设、进展与失败模式，同时剔除低信号痕迹。该表示支持两种互补的推理时扩展：并行侧，我们提出递归锦标赛投票（https://huggingface.co/papers?q=Recursive%20Tournament%20Voting，RTV），通过小组比较递归缩小候选摘要集合；串行侧，我们将并行蒸馏-精修（https://huggingface.co/papers?q=Parallel-Distill-Refine，PDR）适配到 Agent 场景，让新 rollout 以先前摘要为条件。在 SWE-Bench Verified（https://huggingface.co/papers?q=SWE-Bench%20Verified）与 Terminal-Bench v2.0（https://huggingface.co/papers?q=Terminal-Bench%20v2.0）上，我们的方法持续提升前沿编程 Agent 的表现。例如，Claude-4.5-Opus 在 SWE-Bench Verified（mini-SWE-agent）上从 70.9% 提升至 77.6%，在 Terminal-Bench v2.0（Terminus 1）上从 46.9% 提升至 59.1%。结果表明，长程 Agent 的测试时扩展本质上是表征、选择与复用的问题。

查看 arXiv 页面（https://arxiv.org/abs/2604.16529）查看 PDF（https://arxiv.org/pdf/2604.16529）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.16529）

引用该论文的模型 0

暂无模型链接该论文

在模型 README.md 中引用 arxiv.org/abs/2604.16529 即可在此显示。

引用该论文的数据集 0

暂无数据集链接该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.16529 即可在此显示。

引用该论文的 Spaces 0

暂无 Space 链接该论文

在 Space README.md 中引用 arxiv.org/abs/2604.16529 即可在此显示。

收录该论文的合集 0

暂无合集收录该论文

将该论文添加到合集（https://huggingface.co/new-collection）即可在此显示。

为代理式编码扩展测试时计算

论文页面 - 扩展测试时计算，赋能 Agent 编程

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

收录该论文的合集 0

相似文章

代理式测试时扩展（GitHub 仓库）

我将测试时计算扩展到 Qwen-3.6-27B 和 Gemma-4-31B，以在代码优化和加速方面超越 Claude Mythos。

CogScale: 可扩展的序列处理基准测试

我用4B参数模型构建的编码智能体在基准测试中达到87%，诀窍如下

@AnthropicAI：我们的最新经济研究引入了一个框架，用于跟踪Claude Code的扩展情况。谁在使用Claude Code，以及…

提交意见反馈