@DorothyDDU: LoopCoder-v2 已发布 Loop Transformers 重复使用同一个块进行循环隐藏状态优化——让模型“思考”更多……

X AI KOLs Timeline 2026/06/17 12:08 论文

loop-transformers code-generation test-time-computation parallel-loop efficiency scaling

摘要

本文介绍了LoopCoder-v2，一个70亿参数的并行循环变换器系列，用于代码生成，并研究了最优循环次数，发现两个循环能带来显著提升，而更多循环则会导致性能下降。

LoopCoder-v2 已发布 🚀 Loop Transformers 重复使用同一个块进行循环隐藏状态优化——让模型“思考”更多，而不只是简单堆叠更多层。我们研究了并行循环变换器中到底多少个循环是值得的。 📜https://t.co/6iKMPelqQ2 https://t.co/Lu7qZskNYW

查看原文

查看缓存全文

缓存时间: 2026/06/18 04:07

LoopCoder-v2 来了 🚀

循环 Transformer 通过重复使用同一个模块进行循环隐状态精炼——让模型“思考”更多，而无需简单堆叠更多层。

我们研究了在并行循环 Transformer 中，实际值得执行多少次循环。

📜https://t.co/6iKMPelqQ2 https://t.co/Lu7qZskNYW

论文页面 - LoopCoder-v2：仅循环一次即可实现高效的测试时计算扩展

来源：https://huggingface.co/papers/2606.18023 发布于 6月16日

当日 #1 论文 (https://huggingface.co/papers/date/2026-06-17) 作者：

摘要

并行循环 Transformer 通过两次循环实现更优的代码生成性能，原因在于精炼后的表征；而额外的循环会导致回报递减，并增加位置失配的成本。

循环 Transformer (https://huggingface.co/papers?q=Looped%20Transformers) 通过重复应用共享模块来扩展隐式计算，但顺序循环会随循环次数增加延迟和 KV 缓存内存。并行循环 Transformer (https://huggingface.co/papers?q=Parallel%20loop%20Transformers) (PLT) 通过跨循环位置偏移 (https://huggingface.co/papers?q=cross-loop%20position%20offsets) (CLP) 和共享 KV 门控滑动窗口注意力 (https://huggingface.co/papers?q=shared-KV%20gated%20sliding-window%20attention) 减轻了这一成本，使得循环次数成为实际可用的设计选择。因此，我们从收益—成本视角研究 PLT 的循环次数选择：额外的一次循环可能精炼表征，但 CLP 也会在每次循环边界引入位置失配。我们通过从零开始训练 LoopCoder-v2 (https://huggingface.co/papers?q=LoopCoder-v2) 系列模型（一组不同循环次数的 7B PLT 编程模型，在 18T 令牌上训练），再进行匹配的指令微调 (https://huggingface.co/papers?q=instruction%20tuning) 和评估，来实例化这项研究。实验表明，两次循环的变体在代码生成、代码推理、智能体软件工程和工具使用基准上，相较于无循环基线普遍提升，将 SWE-bench (https://huggingface.co/papers?q=SWE-bench) Verified 从 43.0 分提升至 64.4 分，Multi-SWE (https://huggingface.co/papers?q=Multi-SWE) 从 14.0 分提升至 31.0 分。相反，三次及以上循环的变体表现退步，揭示了强烈的非单调循环次数效应。我们的诊断表明，第二次循环提供了主要的生产性精炼，而后续循环产生微弱的、振荡式的更新，且表征多样性降低。由于 CLP 引起的失配大致固定，而精炼收益逐渐减小，偏移成本越发占主导。这种收益—成本权衡解释了 PLT 在两次循环时达到饱和，并为循环次数选择 (https://huggingface.co/papers?q=loop-count%20selection) 提供了诊断依据。

查看 arXiv 页面 (https://arxiv.org/abs/2606.18023) 查看 PDF (https://arxiv.org/pdf/2606.18023) 加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.18023)

在您的 Agent 中获取此论文：

hf papers read 2606\.18023

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无模型关联此论文

请在模型的 README.md 中引用 arxiv.org/abs/2606.18023，以便在此页面链接。

引用此论文的数据集 0

暂无数据集关联此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.18023，以便在此页面链接。

引用此论文的 Space 0

暂无 Space 关联此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.18023，以便在此页面链接。

@DorothyDDU: LoopCoder-v2 已发布 Loop Transformers 重复使用同一个块进行循环隐藏状态优化——让模型“思考”更多……

论文页面 - LoopCoder-v2：仅循环一次即可实现高效的测试时计算扩展

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏 2

相似文章

Multilingual-Multimodal-NLP/LoopCoder-V2 · Hugging Face

LoopCoder-v2：仅一次循环实现高效的测试时计算扩展

Looped World Models

@HuggingPapers: LoopCoder-v2 已发布。一个基于 18T token 训练的 7B 模型，仅用两次循环就在 SWE-bench Verified 上取得了 64.4 的高分，击败了...

@askalphaxiv: 另一项关于循环Transformer的酷研究。他们提出一个问题：“我们能否直接在推理时循环一个冻结的、现成的检查点…

提交意见反馈