LoopCoder-v2:仅一次循环实现高效的测试时计算扩展
摘要
LoopCoder-v2 提出了并行循环变换器(Parallel Loop Transformers,PLT),用于在代码生成中实现高效的测试时计算扩展,证明两次循环能带来显著增益,而更多循环则导致收益递减和位置错位成本。
查看缓存全文
缓存时间: 2026/06/17 03:35
论文页面 - LoopCoder-v2:仅循环一次即可实现高效的测试时计算扩展
来源:https://huggingface.co/papers/2606.18023 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
并行循环Transformer通过两次循环获得更好的代码生成性能,这得益于精炼的表示,而额外的循环会导致收益递减和位置错位成本增加。
循环Transformer (https://huggingface.co/papers?q=Looped%20Transformers) 通过重复应用共享块来扩展潜在计算,但顺序循环会增加延迟和KV缓存内存,且与循环次数成正比。并行循环Transformer (https://huggingface.co/papers?q=Parallel%20loop%20Transformers) (PLT) 通过跨循环位置偏移 (https://huggingface.co/papers?q=cross-loop%20position%20offsets) (CLP) 和共享KV门控滑动窗口注意力 (https://huggingface.co/papers?q=shared-KV%20gated%20sliding-window%20attention) 缓解了这一成本,使得循环次数成为实际的设计选择。因此,我们通过收益-成本视角研究PLT循环次数选择 (https://huggingface.co/papers?q=loop-count%20selection):额外的循环可能会精炼表示,但CLP也引入了每个循环边界的位置错位。我们通过从头开始在18T token上训练LoopCoder-v2 (https://huggingface.co/papers?q=LoopCoder-v2) 系列来实例化这项研究,该系列包含不同循环次数的7B PLT代码生成器,随后进行匹配的指令微调 (https://huggingface.co/papers?q=instruction%20tuning) 和评估。经验上,双循环变体在代码生成、代码推理、智能体软件工程和工具使用基准测试中,相比无循环基线取得了广泛提升,将SWE-bench (https://huggingface.co/papers?q=SWE-bench) Verified从43.0分提高到64.4分,Multi-SWE (https://huggingface.co/papers?q=Multi-SWE) 从14.0分提高到31.0分。相比之下,三次或更多循环的变体性能下降,揭示了强烈的非单调循环次数效应。我们的诊断表明,循环2提供了主要的生产性精炼,而后续循环产生的收益递减、振荡更新,并降低了表示多样性。由于CLP引起的错位大致固定,而精炼收益逐渐缩小,错位成本日益占主导。这种收益-成本权衡解释了PLT在两次循环时饱和,并为循环次数选择 (https://huggingface.co/papers?q=loop-count%20selection) 提供了诊断依据。
查看arXiv页面 (https://arxiv.org/abs/2606.18023)查看PDF (https://arxiv.org/pdf/2606.18023)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.18023)
在你的 Agent 中获取此论文:
hf papers read 2606\.18023
没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.18023 以与此页面关联。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.18023 以与此页面关联。
引用此论文的 Spaces0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.18023 以与此页面关联。
包含此论文的收藏集0
没有收藏集包含此论文
请将这篇论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以与此页面关联。
相似文章
Multilingual-Multimodal-NLP/LoopCoder-V2 · Hugging Face
LoopCoder-V2 是一个基于 Parallel Loop Transformer (PLT) 构建的 7B 参数指令调优代码模型,展示了非单调测试时扩展特性,其中两个循环提供了最佳的收益-成本权衡,并在代码生成和推理基准测试上显著优于基线模型。
@DorothyDDU: LoopCoder-v2 已发布 Loop Transformers 重复使用同一个块进行循环隐藏状态优化——让模型“思考”更多……
本文介绍了LoopCoder-v2,一个70亿参数的并行循环变换器系列,用于代码生成,并研究了最优循环次数,发现两个循环能带来显著提升,而更多循环则会导致性能下降。
@rohanpaul_ai: 这篇论文提出了一个大胆的主张,对‘更多测试时计算应持续带来帮助’的普遍观点提出了挑战。声称一个代码…
本文介绍了 LoopCoder-v2,一个 7B 代码模型,该模型从单次重新思考循环中获益最大;额外的循环会降低性能,挑战了‘更多测试时计算总是有帮助’的假设。
PaT:试错后规划,实现高效的测试时代码生成
本文介绍了 PaT(试错后规划),这是一种用于代码生成的自适应测试时计算策略,在保持与更大模型相当的性能的同时,将推理成本降低了约 69%。
为代理式编码扩展测试时计算
一种面向代理式编码的测试时扩展框架,可将 rollout 轨迹压缩为结构化摘要,并通过递归投票/PDR 将 Claude-4.5-Opus 在 SWE-Bench Verified 上的成绩提升至 77.6%。