@DorothyDDU: LoopCoder-v2 已发布 Loop Transformers 重复使用同一个块进行循环隐藏状态优化——让模型“思考”更多……

X AI KOLs Timeline 论文

摘要

本文介绍了LoopCoder-v2,一个70亿参数的并行循环变换器系列,用于代码生成,并研究了最优循环次数,发现两个循环能带来显著提升,而更多循环则会导致性能下降。

LoopCoder-v2 已发布 🚀 Loop Transformers 重复使用同一个块进行循环隐藏状态优化——让模型“思考”更多,而不只是简单堆叠更多层。 我们研究了并行循环变换器中到底多少个循环是值得的。 📜https://t.co/6iKMPelqQ2 https://t.co/Lu7qZskNYW
查看原文
查看缓存全文

缓存时间: 2026/06/18 04:07

LoopCoder-v2 来了 🚀

循环 Transformer 通过重复使用同一个模块进行循环隐状态精炼——让模型“思考”更多,而无需简单堆叠更多层。

我们研究了在并行循环 Transformer 中,实际值得执行多少次循环。

📜https://t.co/6iKMPelqQ2 https://t.co/Lu7qZskNYW


论文页面 - LoopCoder-v2:仅循环一次即可实现高效的测试时计算扩展

来源:https://huggingface.co/papers/2606.18023 发布于 6月16日

当日 #1 论文 (https://huggingface.co/papers/date/2026-06-17) 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

并行循环 Transformer 通过两次循环实现更优的代码生成性能,原因在于精炼后的表征;而额外的循环会导致回报递减,并增加位置失配的成本。

循环 Transformer (https://huggingface.co/papers?q=Looped%20Transformers) 通过重复应用共享模块来扩展隐式计算,但顺序循环会随循环次数增加延迟和 KV 缓存内存。并行循环 Transformer (https://huggingface.co/papers?q=Parallel%20loop%20Transformers) (PLT) 通过跨循环位置偏移 (https://huggingface.co/papers?q=cross-loop%20position%20offsets) (CLP) 和共享 KV 门控滑动窗口注意力 (https://huggingface.co/papers?q=shared-KV%20gated%20sliding-window%20attention) 减轻了这一成本,使得循环次数成为实际可用的设计选择。因此,我们从收益—成本视角研究 PLT 的循环次数选择:额外的一次循环可能精炼表征,但 CLP 也会在每次循环边界引入位置失配。我们通过从零开始训练 LoopCoder-v2 (https://huggingface.co/papers?q=LoopCoder-v2) 系列模型(一组不同循环次数的 7B PLT 编程模型,在 18T 令牌上训练),再进行匹配的指令微调 (https://huggingface.co/papers?q=instruction%20tuning) 和评估,来实例化这项研究。实验表明,两次循环的变体在代码生成、代码推理、智能体软件工程和工具使用基准上,相较于无循环基线普遍提升,将 SWE-bench (https://huggingface.co/papers?q=SWE-bench) Verified 从 43.0 分提升至 64.4 分,Multi-SWE (https://huggingface.co/papers?q=Multi-SWE) 从 14.0 分提升至 31.0 分。相反,三次及以上循环的变体表现退步,揭示了强烈的非单调循环次数效应。我们的诊断表明,第二次循环提供了主要的生产性精炼,而后续循环产生微弱的、振荡式的更新,且表征多样性降低。由于 CLP 引起的失配大致固定,而精炼收益逐渐减小,偏移成本越发占主导。这种收益—成本权衡解释了 PLT 在两次循环时达到饱和,并为循环次数选择 (https://huggingface.co/papers?q=loop-count%20selection) 提供了诊断依据。

查看 arXiv 页面 (https://arxiv.org/abs/2606.18023) 查看 PDF (https://arxiv.org/pdf/2606.18023) 加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.18023)

在您的 Agent 中获取此论文:

hf papers read 2606\.18023

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无模型关联此论文

请在模型的 README.md 中引用 arxiv.org/abs/2606.18023,以便在此页面链接。

引用此论文的数据集 0

暂无数据集关联此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.18023,以便在此页面链接。

引用此论文的 Space 0

暂无 Space 关联此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.18023,以便在此页面链接。

包含此论文的收藏 2

相似文章

Multilingual-Multimodal-NLP/LoopCoder-V2 · Hugging Face

Reddit r/LocalLLaMA

LoopCoder-V2 是一个基于 Parallel Loop Transformer (PLT) 构建的 7B 参数指令调优代码模型,展示了非单调测试时扩展特性,其中两个循环提供了最佳的收益-成本权衡,并在代码生成和推理基准测试上显著优于基线模型。

LoopCoder-v2:仅一次循环实现高效的测试时计算扩展

Hugging Face Daily Papers

LoopCoder-v2 提出了并行循环变换器(Parallel Loop Transformers,PLT),用于在代码生成中实现高效的测试时计算扩展,证明两次循环能带来显著增益,而更多循环则导致收益递减和位置错位成本。

Looped World Models

Hugging Face Daily Papers

Looped World Models 通过共享的Transformer块引入迭代潜在状态细化,实现了100倍的参数效率,同时根据预测复杂度自适应调整计算深度。

@askalphaxiv: 另一项关于循环Transformer的酷研究。他们提出一个问题:“我们能否直接在推理时循环一个冻结的、现成的检查点…

X AI KOLs Timeline

本研究介绍了一种技术,通过使用阻尼Runge-Kutta子步骤,在推理时循环冻结的、现成的Transformer检查点,将Transformer层视为残差ODE中的欧拉步骤。这无需微调、架构更改或新权重即可增加额外的潜在计算,在MMLU-Pro、GPQA和ARC等知识任务上显示出收益。