LoopCoder-v2:仅一次循环实现高效的测试时计算扩展

Hugging Face Daily Papers 论文

摘要

LoopCoder-v2 提出了并行循环变换器(Parallel Loop Transformers,PLT),用于在代码生成中实现高效的测试时计算扩展,证明两次循环能带来显著增益,而更多循环则导致收益递减和位置错位成本。

循环变换器通过重复应用共享块来扩展潜在计算,但顺序循环会随循环次数增加延迟和 KV 缓存内存。并行循环变换器(PLT)通过跨循环位置偏移(CLP)和共享 KV 门控滑动窗口注意力来缓解这一成本,使得循环次数成为一个实际的设计选择。因此,我们通过收益-成本视角研究了 PLT 的循环次数选择:额外的循环可能会优化表示,但 CLP 也会在每个循环边界引入位置错位。我们通过训练 LoopCoder-v2 来具体化这项研究,这是一个具有不同循环次数的 7B PLT 编码器家族,从头开始在 18T token 上进行训练,随后进行匹配的指令调优和评估。实验上,两循环变体在代码生成、代码推理、智能体软件工程和工具使用基准测试中相比非循环基线带来了广泛的增益,将 SWE-bench Verified 从 43.0 分提高到 64.4 分,将 Multi-SWE 从 14.0 分提高到 31.0 分。相比之下,三个或更多循环的变体表现退步,揭示出强烈的非单调循环次数效应。我们的诊断表明,第二次循环提供了主要的有效改进,而后续循环产生递减的、振荡的更新和降低的表示多样性。由于 CLP 引起的错位在改进增益缩小时大致保持不变,偏移成本逐渐占主导地位。这种收益-成本权衡解释了 PLT 在两循环时的饱和现象,并为循环次数选择提供了诊断依据。
查看原文
查看缓存全文

缓存时间: 2026/06/17 03:35

论文页面 - LoopCoder-v2:仅循环一次即可实现高效的测试时计算扩展

来源:https://huggingface.co/papers/2606.18023 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

并行循环Transformer通过两次循环获得更好的代码生成性能,这得益于精炼的表示,而额外的循环会导致收益递减和位置错位成本增加。

循环Transformer (https://huggingface.co/papers?q=Looped%20Transformers) 通过重复应用共享块来扩展潜在计算,但顺序循环会增加延迟和KV缓存内存,且与循环次数成正比。并行循环Transformer (https://huggingface.co/papers?q=Parallel%20loop%20Transformers) (PLT) 通过跨循环位置偏移 (https://huggingface.co/papers?q=cross-loop%20position%20offsets) (CLP) 和共享KV门控滑动窗口注意力 (https://huggingface.co/papers?q=shared-KV%20gated%20sliding-window%20attention) 缓解了这一成本,使得循环次数成为实际的设计选择。因此,我们通过收益-成本视角研究PLT循环次数选择 (https://huggingface.co/papers?q=loop-count%20selection):额外的循环可能会精炼表示,但CLP也引入了每个循环边界的位置错位。我们通过从头开始在18T token上训练LoopCoder-v2 (https://huggingface.co/papers?q=LoopCoder-v2) 系列来实例化这项研究,该系列包含不同循环次数的7B PLT代码生成器,随后进行匹配的指令微调 (https://huggingface.co/papers?q=instruction%20tuning) 和评估。经验上,双循环变体在代码生成、代码推理、智能体软件工程和工具使用基准测试中,相比无循环基线取得了广泛提升,将SWE-bench (https://huggingface.co/papers?q=SWE-bench) Verified从43.0分提高到64.4分,Multi-SWE (https://huggingface.co/papers?q=Multi-SWE) 从14.0分提高到31.0分。相比之下,三次或更多循环的变体性能下降,揭示了强烈的非单调循环次数效应。我们的诊断表明,循环2提供了主要的生产性精炼,而后续循环产生的收益递减、振荡更新,并降低了表示多样性。由于CLP引起的错位大致固定,而精炼收益逐渐缩小,错位成本日益占主导。这种收益-成本权衡解释了PLT在两次循环时饱和,并为循环次数选择 (https://huggingface.co/papers?q=loop-count%20selection) 提供了诊断依据。

查看arXiv页面 (https://arxiv.org/abs/2606.18023)查看PDF (https://arxiv.org/pdf/2606.18023)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.18023)

在你的 Agent 中获取此论文:

hf papers read 2606\.18023

没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.18023 以与此页面关联。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.18023 以与此页面关联。

引用此论文的 Spaces0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.18023 以与此页面关联。

包含此论文的收藏集0

没有收藏集包含此论文

请将这篇论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以与此页面关联。

相似文章

Multilingual-Multimodal-NLP/LoopCoder-V2 · Hugging Face

Reddit r/LocalLLaMA

LoopCoder-V2 是一个基于 Parallel Loop Transformer (PLT) 构建的 7B 参数指令调优代码模型,展示了非单调测试时扩展特性,其中两个循环提供了最佳的收益-成本权衡,并在代码生成和推理基准测试上显著优于基线模型。

为代理式编码扩展测试时计算

Hugging Face Daily Papers

一种面向代理式编码的测试时扩展框架,可将 rollout 轨迹压缩为结构化摘要,并通过递归投票/PDR 将 Claude-4.5-Opus 在 SWE-Bench Verified 上的成绩提升至 77.6%。