LoopUS：将预训练大语言模型重塑为循环隐层精炼模型

Hugging Face Daily Papers 2026/05/10 00:00 论文

looped-architecture latent-refinement post-training reasoning early-exiting llm-efficiency

摘要

LoopUS 是一种后训练框架，通过隐层精炼和自适应早退机制，将预训练大语言模型转换为循环架构，从而提升推理性能。它解决了现有循环计算方法中存在的计算成本高和原有能力受损的问题。

通过扩展测试时计算量，循环计算在提升大语言模型（LLM）的推理性能方面展现出巨大潜力。然而，现有的方法通常需要从 scratch 训练循环模型，或进行破坏性的改装，这不仅涉及高昂的计算成本，还可能损害预训练阶段获得的能力。为了解决这些局限性，我们提出了 LoopUS（Looped Depth Up-Scaling，循环深度上采样），这是一种后训练框架，能够将标准的预训练 LLM 转换为循环架构。LoopUS 的一项关键技术贡献是，将预训练 LLM 重塑为编码器、循环推理块和解码器。它通过四个核心组件来实现这种隐层精炼架构：(1) 基于阶段性表示动态指导的模块分解；(2) 输入依赖的选择性门控机制，以缓解隐藏状态漂移；(3) 随机深度监督，用于在长递归周期内实现内存高效的学习；以及 (4) 置信度头，用于自适应早退。这些机制共同作用，在稳定模型以抵御计算瓶颈和表示崩溃的同时，将标准非循环模型转换为循环形式。通过稳定的隐层循环，LoopUS 在不延长生成序列长度或无需从头进行循环训练的情况下，提升了推理性能。更多详情请见 https://thrillcrazyer.github.io/LoopUS

查看原文

查看缓存全文

缓存时间: 2026/05/13 04:13

论文页面 - LoopUS：将预训练大语言模型重构为循环隐式精炼模型

来源：https://huggingface.co/papers/2605.11011

摘要

LoopUS 是一种后训练框架，通过隐式精炼和自适应提前退出机制，将预训练的大语言模型（LLMs）转化为循环架构，以提升推理性能。

循环计算（https://huggingface.co/papers?q=Looped%20computation）在通过扩展测试时计算来改善大语言模型（https://huggingface.co/papers?q=LLMs）的推理导向性能方面展现出潜力。然而，现有方法通常需要从从头训练循环模型，或进行具有破坏性的改造，这涉及巨大的计算成本，并可能损害预训练能力。为了解决这些局限性，我们提出了循环深度上采样（Looped Depth Up-Scaling，简称 LoopUS），这是一种后训练框架（https://huggingface.co/papers?q=post-training%20framework），可将标准预训练大语言模型转换为循环架构。作为关键的技术贡献，LoopUS 将预训练的大语言模型重构为编码器（https://huggingface.co/papers?q=encoder）、循环推理块（https://huggingface.co/papers?q=looped%20reasoning%20block）和解码器（https://huggingface.co/papers?q=decoder）。它通过四个核心组件实现了这种隐式精炼架构（https://huggingface.co/papers?q=latent-refinement%20architecture）：（1）由分阶段表示动力学（https://huggingface.co/papers?q=staged%20representation%20dynamics）引导的块分解（https://huggingface.co/papers?q=block%20decomposition）；（2）用于缓解隐藏状态漂移（https://huggingface.co/papers?q=hidden-state%20drift）的输入依赖选择门（https://huggingface.co/papers?q=input-dependent%20selective%20gate）；（3）用于在长递归视界上实现内存高效学习（https://huggingface.co/papers?q=memory-efficient%20learning）的随机深度监督（https://huggingface.co/papers?q=random%20deep%20supervision）；以及（4）用于自适应提前退出（https://huggingface.co/papers?q=adaptive%20early%20exiting）的置信度头（https://huggingface.co/papers?q=confidence%20head）。这些机制共同将标准的非循环模型转化为循环形式，同时使其稳定，避免计算瓶颈和表示崩溃（https://huggingface.co/papers?q=representation%20collapse）。通过稳定的隐式循环，LoopUS 在不扩展生成轨迹或从头开始循环训练的情况下，提升了推理导向的性能。更多详情请参见 https://thrillcrazyer.github.io/LoopUS

查看 arXiv 页面 (https://arxiv.org/abs/2605.11011) 查看 PDF (https://arxiv.org/pdf/2605.11011) 项目页面 (https://thrillcrazyer.github.io/LoopUS) GitHub (https://github.com/Thrillcrazyer/LoopUS) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.11011)

在您的代理中获取此论文：

hf papers read 2605\.11011

没有最新版的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 6

Thrillcrazyer/Qwen3_1.7B_LoopUS 2B• 更新于 2 小时前 • 18 • 1 (https://huggingface.co/Thrillcrazyer/Qwen3_1.7B_LoopUS)

Thrillcrazyer/Qwen3-4B_LoopUS 4B• 更新于 2 小时前 • 83 • 1 (https://huggingface.co/Thrillcrazyer/Qwen3-4B_LoopUS)

Thrillcrazyer/Qwen3_1.7B_LoopUS_SFT 2B• 更新于 2 小时前 • 7 (https://huggingface.co/Thrillcrazyer/Qwen3_1.7B_LoopUS_SFT)

Thrillcrazyer/Phi4_LoopUS 15B• 更新于 2 小时前 • 46 (https://huggingface.co/Thrillcrazyer/Phi4_LoopUS)

浏览引用此论文的 6 个模型 (https://huggingface.co/models?other=arxiv:2605.11011)## 引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.11011 以从此页面链接。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.11011 以从此页面链接。

包含此论文的收藏 0

没有包含此论文的收藏

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

LoopUS：将预训练大语言模型重塑为循环隐层精炼模型

论文页面 - LoopUS：将预训练大语言模型重构为循环隐式精炼模型

摘要

引用此论文的模型 6

Thrillcrazyer/Qwen3_1.7B_LoopUS 2B• 更新于 2 小时前 • 18 • 1 (https://huggingface.co/Thrillcrazyer/Qwen3_1.7B_LoopUS)

Thrillcrazyer/Qwen3-4B_LoopUS 4B• 更新于 2 小时前 • 83 • 1 (https://huggingface.co/Thrillcrazyer/Qwen3-4B_LoopUS)

Thrillcrazyer/Qwen3_1.7B_LoopUS_SFT 2B• 更新于 2 小时前 • 7 (https://huggingface.co/Thrillcrazyer/Qwen3_1.7B_LoopUS_SFT)

Thrillcrazyer/Phi4_LoopUS 15B• 更新于 2 小时前 • 46 (https://huggingface.co/Thrillcrazyer/Phi4_LoopUS)

引用此论文的 Spaces 0

包含此论文的收藏 0

相似文章

关于预测预训练大语言模型（LLM）的后训练潜力

JumpLoRA：大语言模型持续学习的稀疏适配器

内存高效型循环Transformer：循环语言模型中的计算与内存解耦

ReFlect：用于复杂长周期大语言模型推理的有效包装系统

快慢学习：迈向持续适应的大语言模型 [R]

提交意见反馈