LoopUS:将预训练大语言模型重塑为循环隐层精炼模型
摘要
LoopUS 是一种后训练框架,通过隐层精炼和自适应早退机制,将预训练大语言模型转换为循环架构,从而提升推理性能。它解决了现有循环计算方法中存在的计算成本高和原有能力受损的问题。
查看缓存全文
缓存时间: 2026/05/13 04:13
论文页面 - LoopUS:将预训练大语言模型重构为循环隐式精炼模型
来源:https://huggingface.co/papers/2605.11011
摘要
LoopUS 是一种后训练框架,通过隐式精炼和自适应提前退出机制,将预训练的大语言模型(LLMs)转化为循环架构,以提升推理性能。
循环计算(https://huggingface.co/papers?q=Looped%20computation)在通过扩展测试时计算来改善大语言模型(https://huggingface.co/papers?q=LLMs)的推理导向性能方面展现出潜力。然而,现有方法通常需要从从头训练循环模型,或进行具有破坏性的改造,这涉及巨大的计算成本,并可能损害预训练能力。为了解决这些局限性,我们提出了循环深度上采样(Looped Depth Up-Scaling,简称 LoopUS),这是一种后训练框架(https://huggingface.co/papers?q=post-training%20framework),可将标准预训练大语言模型转换为循环架构。作为关键的技术贡献,LoopUS 将预训练的大语言模型重构为编码器(https://huggingface.co/papers?q=encoder)、循环推理块(https://huggingface.co/papers?q=looped%20reasoning%20block)和解码器(https://huggingface.co/papers?q=decoder)。它通过四个核心组件实现了这种隐式精炼架构(https://huggingface.co/papers?q=latent-refinement%20architecture):(1)由分阶段表示动力学(https://huggingface.co/papers?q=staged%20representation%20dynamics)引导的块分解(https://huggingface.co/papers?q=block%20decomposition);(2)用于缓解隐藏状态漂移(https://huggingface.co/papers?q=hidden-state%20drift)的输入依赖选择门(https://huggingface.co/papers?q=input-dependent%20selective%20gate);(3)用于在长递归视界上实现内存高效学习(https://huggingface.co/papers?q=memory-efficient%20learning)的随机深度监督(https://huggingface.co/papers?q=random%20deep%20supervision);以及(4)用于自适应提前退出(https://huggingface.co/papers?q=adaptive%20early%20exiting)的置信度头(https://huggingface.co/papers?q=confidence%20head)。这些机制共同将标准的非循环模型转化为循环形式,同时使其稳定,避免计算瓶颈和表示崩溃(https://huggingface.co/papers?q=representation%20collapse)。通过稳定的隐式循环,LoopUS 在不扩展生成轨迹或从头开始循环训练的情况下,提升了推理导向的性能。更多详情请参见 https://thrillcrazyer.github.io/LoopUS
查看 arXiv 页面 (https://arxiv.org/abs/2605.11011) 查看 PDF (https://arxiv.org/pdf/2605.11011) 项目页面 (https://thrillcrazyer.github.io/LoopUS) GitHub (https://github.com/Thrillcrazyer/LoopUS) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.11011)
在您的代理中获取此论文:
hf papers read 2605\.11011
没有最新版的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 6
Thrillcrazyer/Qwen3_1.7B_LoopUS 2B• 更新于 2 小时前 • 18 • 1 (https://huggingface.co/Thrillcrazyer/Qwen3_1.7B_LoopUS)
Thrillcrazyer/Qwen3-4B_LoopUS 4B• 更新于 2 小时前 • 83 • 1 (https://huggingface.co/Thrillcrazyer/Qwen3-4B_LoopUS)
Thrillcrazyer/Qwen3_1.7B_LoopUS_SFT 2B• 更新于 2 小时前 • 7 (https://huggingface.co/Thrillcrazyer/Qwen3_1.7B_LoopUS_SFT)
Thrillcrazyer/Phi4_LoopUS 15B• 更新于 2 小时前 • 46 (https://huggingface.co/Thrillcrazyer/Phi4_LoopUS)
浏览引用此论文的 6 个模型 (https://huggingface.co/models?other=arxiv:2605.11011)## 引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.11011 以从此页面链接。
引用此论文的 Spaces 0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.11011 以从此页面链接。
包含此论文的收藏 0
没有包含此论文的收藏
将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
关于预测预训练大语言模型(LLM)的后训练潜力
本文介绍了 RuDE,这是一种通过利用响应鉴别力来预测预训练大语言模型(LLM)后训练潜力的框架,旨在解决 MMLU 等传统基准测试的局限性。
JumpLoRA:大语言模型持续学习的稀疏适配器
JumpLoRA 引入了一个新颖的稀疏适配器框架,用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法,并超越了 ELLA 等最先进的持续学习方法。
内存高效型循环Transformer:循环语言模型中的计算与内存解耦
提出内存高效型循环Transformer(MELT),这是一种新型循环大语言模型架构,通过跨循环共享单一KV缓存,并结合插值过渡与注意力对齐蒸馏的分块训练方法,实现了推理深度与内存消耗的解耦。
ReFlect:用于复杂长周期大语言模型推理的有效包装系统
本文介绍了 ReFlect,这是一种无需训练的包装系统,通过为大语言模型包裹确定性的错误检测与恢复逻辑,来提升其在复杂、长周期推理任务上的性能。
快慢学习:迈向持续适应的大语言模型 [R]
本文提出了一种用于大语言模型的快慢训练框架,该框架结合参数更新与上下文优化,以提高样本效率并减少持续学习过程中的灾难性遗忘。