HRM-Text: 超越规模的高效预训练

arXiv cs.CL 2026/05/21 04:00 论文

hierarchical-recurrent-model efficient-pretraining language-modeling mmlu arc-c gsm8k math

摘要

HRM-Text 引入了一种分层循环模型，将计算解耦为慢速和快速层级，使得仅使用400亿个token和1500美元预算即可从头开始高效预训练，实现了与更大模型竞争的性能。

arXiv:2605.20613v1 公告类型：新摘要：当前大语言模型的预训练范式依赖海量计算和互联网规模的原始文本，为基础研究设置了巨大障碍。相比之下，生物系统通过多时间尺度处理（例如额顶回路的功能组织）展示了极高的样本效率。受此启发，我们提出了 HRM-Text，它将标准 Transformer 替换为分层循环模型（HRM），将计算解耦为慢速演化的策略层和快速演化的执行层。为了稳定这种深度循环结构以进行语言建模，我们引入了 MagicNorm 和预热深度信用分配。此外，我们不再使用标准的原始文本预训练，而是仅使用指令-响应对进行训练，采用任务完成目标和 PrefixLM 掩码。作为高效预训练的经验性存在证明，一个 1B 参数的 HRM-Text 模型仅使用 400 亿个唯一 token 和 1500 美元预算从头开始训练，在 MMLU 上达到 60.7%，ARC-C 上 81.9%，DROP 上 82.2%，GSM8K 上 84.5%，MATH 上 56.2%。尽管训练 token 数约为标准基线的 100-900 分之一，估计计算量减少 96-432 倍，HRM-Text 的性能仍与 2-7B 参数的开源模型相当。这些结果表明，协同设计架构和目标可以大幅降低计算-性能比，使从头预训练对更广泛的研究社区变得可及。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:34

# HRM-Text：超越规模的高效预训练  
来源：https://arxiv.org/html/2605.20613  

Guan Wang¹,*,†, Changling Liu¹,*, Chenyu Wang², Cai Zhou², Yuhao Sun¹, Yifei Wu¹, Shuai Zhen¹, Luca Scimeca¹, Yasin Abbasi Yadkori¹,†  
¹Sapient Intelligence  
²MIT  

###### 摘要  

当前大语言模型的预训练范式依赖于海量计算和互联网规模的原始文本，为基础研究设置了巨大的障碍。相比之下，生物系统通过多时间尺度处理（例如额顶叶回路的功能组织）展现出高度样本高效的学习能力。受此启发，我们引入了HRM-Text，用分层循环模型（HRM）替代标准Transformer，将计算解耦为慢速演化的策略层和快速演化的执行层。为了稳定这种深度循环在语言建模中的应用，我们引入了MagicNorm和预热深度信用分配。此外，我们放弃标准的原始文本预训练，而是仅在指令-响应对上训练，使用任务完成目标和PrefixLM掩码。作为高效预训练的经验性存在证明，一个从零开始仅用400亿唯一令牌和1500美元预算训练的1B参数HRM-Text模型，在MMLU上达到60.7%，ARC-C上81.9%，DROP上82.2%，GSM8K上84.5%，MATH上56.2%。尽管使用的训练令牌约为标准基线的1/100到1/900，估算计算量仅为1/96到1/432，HRM-Text仍与2-7B参数的开源模型性能相当。这些结果表明，共同设计架构和目标可以大幅降低计算与性能之比，使得从零开始的预训练对更广泛的研究社区变得可行。  

††脚注：†通讯作者。*同等贡献。联系方式：[email protected]。代码在：github.com/sapientinc/HRM-Text (https://github.com/sapientinc/HRM-Text)  

参见图注  
图1：预训练效率。HRM-Text 1B在16块GPU上从零开始训练1.9天，性能与显著更大的2-7B基础模型相当，同时使用的计算量最多减少432倍，训练令牌最多减少900倍。  

## 1 引言  

大语言模型（LLM）取得的显著成功目前由一种单一的配方驱动：大规模、多阶段流水线，始于对互联网规模原始文本的广泛无监督预训练。虽然不可否认地有效，但这种暴力扩展范式在数据有限的场景下极其低效。大量的计算被用于预测类似提示或与任务无关的文本，仅仅是为了建立通用表示37 (https://arxiv.org/html/2605.20613#bib.bib26),31 (https://arxiv.org/html/2605.20613#bib.bib23),63 (https://arxiv.org/html/2605.20613#bib.bib38)。因此，这种极端的计算障碍在很大程度上将更广泛的研究社区锁在了基础预训练探索的大门之外。普遍的假设是，如果没有庞大的计算集群和数万亿的令牌，研究新架构或从零开始训练是徒劳的。这种暴力数据饥渴与人类智能形成鲜明对比——人类只需几个例子就能掌握指导规则并进行启发式搜索。  

在之前的工作中，我们引入了分层循环模型（HRM），这是一种受生物额顶叶回路功能组织启发的双时间尺度架构69 (https://arxiv.org/html/2605.20613#bib.bib18)。通过将深思熟虑的解耦为慢速演化的策略层和快速演化的执行层，HRM提供了一种结构性的归纳偏置，有助于避免局部停滞，并成功引导组合任务上的符号搜索。然而，将循环架构扩展到语言建模的开放式复杂性会引入严重的梯度不稳定风险6 (https://arxiv.org/html/2605.20613#bib.bib76),13 (https://arxiv.org/html/2605.20613#bib.bib74),34 (https://arxiv.org/html/2605.20613#bib.bib75),78 (https://arxiv.org/html/2605.20613#bib.bib77)。仅有结构先验是不够的；要实现有竞争力的开放域性能，需要全面的协同设计。  

在本文中，我们证明架构和训练方法再次至关重要。我们探索两大协同方向来驱动这个样本高效的引擎：  

- • 架构探索：为了在不导致参数数量成比例爆炸的情况下实现深度计算，我们在HRM模块化、多时间尺度循环的基础上进行构建。快速LL模块执行局部迭代细化，而慢速HH模块在循环中维持稳定的语义上下文69 (https://arxiv.org/html/2605.20613#bib.bib18)。为了使这种深度循环在语言上数学上可行，我们引入了MagicNorm和预热深度信用分配等稳定技术，在前向激活方差受限的同时保持反向优化稳定71 (https://arxiv.org/html/2605.20613#bib.bib70),44 (https://arxiv.org/html/2605.20613#bib.bib71),62 (https://arxiv.org/html/2605.20613#bib.bib28)。  
- • 目标探索：我们挑战在原始文本上进行自回归预训练的教条。由于模型主要在推理时用于条件生成，我们直接对指令-响应对进行HRM-Text的从零开始预训练70 (https://arxiv.org/html/2605.20613#bib.bib39),55 (https://arxiv.org/html/2605.20613#bib.bib40),46 (https://arxiv.org/html/2605.20613#bib.bib44)。我们优化任务完成目标，仅对响应计算负对数似然损失：−log⁡P(xa∣xq)61 (https://arxiv.org/html/2605.20613#bib.bib17),53 (https://arxiv.org/html/2605.20613#bib.bib37),55 (https://arxiv.org/html/2605.20613#bib.bib40)。我们将其与PrefixLM注意力掩码配对，该掩码允许在指令令牌上进行完全双向（类似编码器）注意力，同时为响应保留标准因果生成45 (https://arxiv.org/html/2605.20613#bib.bib35),17 (https://arxiv.org/html/2605.20613#bib.bib36),53 (https://arxiv.org/html/2605.20613#bib.bib37),63 (https://arxiv.org/html/2605.20613#bib.bib38)。  

当这两个方向结合时，结果是一个经验性存在证明，挑战了当前的扩展教条。从零开始仅用40B唯一令牌的低预算训练，HRM-Text在大多数基准测试中与当代开源模型（如Llama、Qwen、Gemma、OLMo、Ouro和Huginn）相比表现强劲48 (https://arxiv.org/html/2605.20613#bib.bib19),72 (https://arxiv.org/html/2605.20613#bib.bib21),64 (https://arxiv.org/html/2605.20613#bib.bib20),50 (https://arxiv.org/html/2605.20613#bib.bib85),77 (https://arxiv.org/html/2605.20613#bib.bib67),23 (https://arxiv.org/html/2605.20613#bib.bib7)。令人瞩目的是，它达到了与这些基线相当的性能水平，但使用的训练令牌少了大约100至900倍，估算训练计算量少了96至432倍，如图1 (https://arxiv.org/html/2605.20613#S0.F1)和表4 (https://arxiv.org/html/2605.20613#S3.T4)所示。  

我们不将HRM-Text呈现为最终或最优的语言模型，而是将其作为证据，表明特定的结构先验和有针对性的训练目标可以根本性地改变计算与性能之比。由于进入门槛大大降低，这种方法使基础AI研究民主化。从零开始的预训练再次变得可行——我们邀请社区加入我们，共同探索智能架构和聚焦目标能走多远。  

## 2 方法  

参见图注  
图2：HRM-Text架构。(a) 包含L和H模块的双时间尺度循环设计。(b) L/H模块内部结构，包含MagicNorm——PreNorm块后接最终归一化。(c) Sigmoid门控多头自注意力。(d) PrefixLM掩码，允许对指令进行双向注意力。  

HRM-Text建立在改进的HRM架构之上，具有双时间尺度循环69 (https://arxiv.org/html/2605.20613#bib.bib18)。前向传播初始化自一个高层状态zH0，来源于输入令牌嵌入，以及一个固定的低层状态zL0。核心处理序列包括两个高层循环。每个循环先执行三次快速LL模块更新，然后执行一次慢速HH模块更新。令牌logits通过对最终HH模块状态的输出应用线性头生成。我们采用预热深度信用分配策略：梯度最初仅通过最后两个循环步骤反向传播，随着训练进行逐步扩展到最后五个步骤。在内部，HH和LL循环模块均使用MagicNorm结构。此外，我们使用无参数RMSNorm（省略可学习γ参数）74 (https://arxiv.org/html/2605.20613#bib.bib87)、SwiGLU激活函数58 (https://arxiv.org/html/2605.20613#bib.bib88)、旋转位置编码（RoPE）60 (https://arxiv.org/html/2605.20613#bib.bib89)和Sigmoid门控自注意力机制52 (https://arxiv.org/html/2605.20613#bib.bib90)。  

与在原始文本上进行标准自回归预训练不同，我们优化任务完成目标。模型直接从零开始在指令-响应对(xq,xa)上进行预训练，使用仅针对响应计算的负对数似然（NLL）损失：−log⁡P(xa|xq)。该目标自然与PrefixLM注意力掩码配对，允许在指令令牌上进行完全双向注意力。  

在接下来的章节中，我们将详细阐述实现HRM-Text极端效率的具体机制。第2.1节 (https://arxiv.org/html/2605.20613#S2.SS1)深入探讨我们新颖的稳定技术，而第2.2节 (https://arxiv.org/html/2605.20613#S2.SS2)则探讨任务完成预训练目标和PrefixLM掩码策略。  

### 2.1 扩展到带循环的语言模型  

#### 2.1.1 通过MagicNorm实现稳定  

尽管原始HRM在符号任务上表现出色，但将循环架构扩展到语言建模会引入严重的梯度不稳定风险。Transformer设计已经在归一化层的位置上做出了折衷71 (https://arxiv.org/html/2605.20613#bib.bib70),44 (https://arxiv.org/html/2605.20613#bib.bib71)；而循环会加剧这种折衷，因为相同的变换会重复应用多次。  

PostNorm67 (https://arxiv.org/html/2605.20613#bib.bib25)将归一化放在残差分支外部：  
hl=Norm(hl−1+Sublayer(hl−1))  
这有效地限制了激活方差并可能提高表达能力，但它干扰了清晰的恒等路径，并可能在后层网络中导致梯度消失44 (https://arxiv.org/html/2605.20613#bib.bib71)。  

PreNorm将归一化放在残差分支内部：  
hl=hl−1+Sublayer(Norm(hl−1))  
这保持了直接的恒等路径hL=h0+∑l=1LSublayer(⋅)，使梯度能够更直接地流向早期层。然而，未归一化的残差累积可能导致隐藏状态方差随深度增长，可能导致表示崩溃或相对于PostNorm性能下降。  

MagicNorm：为了解决循环模型中的这一权衡，我们引入了MagicNorm，它利用由截断时间反向传播（TBPTT）引起的前向和后向计算范围之间的不对称性。令N表示总循环前向步数，K表示截断后向范围，其中K≪N。在MagicNorm中，每个循环模块由L个内部PreNorm块组成，但在其出口处有一个最终归一化层：  
zn=Norm(zn−1+∑l=1LSublayerl(Norm(⋅)))  

在前向传播过程中，循环状态z经历N次模块级归一化操作。由于这些归一化直接位于主循环路径上，它们在每个循环步骤结束时限制激活方差。这防止了纯PreNorm的无界方差增长，并为循环核心提供了类似PostNorm的前向稳定性。  

相反，在后向传播过程中，截断的梯度范围意味着误差信号仅通过模块级归一化K次。在同一范围内，梯度也流经L个内部PreNorm恒等连接。由于K相对于完整循环深度N较小，MagicNorm在优化过程中表现得像更稳定的PreNorm架构。  

#### 2.1.2 预热深度信用分配  

原始HRM使用固定的1步梯度策略，仅通过最后两个循环步骤（最后一个HH和最后一个LL）进行反向传播。我们通过预热深度信用分配扩展了这一方法。该调度基于时间课程原则：早期优化限制为短信用分配路径，只有在模型达到更稳定状态后才引入更长路径。这种设计也与生物时间学习理论一致，其中局部痕迹可以支持延迟信用分配35 (https://arxiv.org/html/2605.20613#bib.bib82)，奖励预测信号可以从接近奖励的事件转移到更早的线索4 (https://arxiv.org/html/2605.20613#bib.bib79)，以及发展性课程可以通过先让学习者接触短程结构再接触长程依赖来提高序列学习能力19 (https://arxiv.org/html/2605.20613#bib.bib83)。  

在操作上，我们动态调整后向梯度范围K。在预训练早期，我们仅通过最后两个循环步骤计算梯度（K=2），然后线性预热至最后五个步骤（K=5）。这种渐进加深允许模型利用更长的循环计算，同时降低初始化时长梯度路径带来的优化病理风险。由于预热阶段反向传播的循环步骤少于最终设置，它还减少了平均后向计算量并加速了早期训练。  

### 2.2 任务完成目标与PrefixLM  

训练基础模型的主导范式依赖于资源密集型、多阶段的流水线。从T5到现代大语言模型53 (https://arxiv.org/html/2605.20613#bib.bib37)，训练通常始于广泛的非监督预训练，随后是更高质量的中期训练。在预训练阶段，模型在互联网规模的原始语料库上训练以学习通用语言表示。在中期训练（或退火）阶段，模型在高质量文本上微调，通常是类似指令的数据。在这两个阶段，模型优化所有令牌上的NLL目标。  

虽然有效，但这种方法在数据和资源有限的场景下可能效率低下。广泛的原始文本预训练消耗了大部分计算和数据，且大量令牌级损失用于预测类似提示或与任务无关的文本。然而在推理时，模型主要应用于条件生成：给定查询或指令，它们必须生成适当的响应。  

为了提高样本效率，HRM-Text省略了广泛的原始文本预训练，直接从零开始仅在指令-响应对上训练。给定一个包含指令和响应的样本x=(xq,xa)，我们优化响应的NLL

HRM-Text: 超越规模的高效预训练

相似文章

HRM-Text: 仅用1千美元和400亿token训练，采用受大脑启发的分层潜在架构

HRM Seems To Be Going Off Right Now

sapientinc/HRM-Text-1B

@Sapient_Int: 推出 HRM-Text。一个超精简的 1B 参数推理语言模型，旨在提供强大的通用性能…

PRX Part 3 — 在24小时内训练文本到图像模型！

提交意见反馈