ARCA:令牌信号退化时的适配器残差信用分配

arXiv cs.LG 论文

摘要

本文指出了在使用LoRA进行LLM强化学习时,令牌级信用分配中存在的一种结构性失效模式,即内在信号退化。它提出了适配器残差信用分配(ARCA),该方法从适配器的隐藏状态残差中推导令牌显著性,并与基线方法保持竞争力。

arXiv:2606.00257v1 公告类型:新 摘要:语言模型强化学习中的令牌级信用分配通常被设定为策略完全可训练的情况,而实际LLM-RL流水线往往依赖参数高效微调,尤其是LoRA。我们认为这种分离隐藏了一种结构性失效模式。在LoRA下,策略被限制在参考模型的低秩邻域内,因此常用的内在信用信号(惊奇度、熵减少和策略散度)的逐令牌输出分布差异在轨迹内归一化后可能变得退化,要么接近均匀权重,要么集中在少量任务无关的位置上。我们形式化了这一行为,并提出直接通过浓度诊断(如权重基尼系数和有效令牌比)来测量它。然后,我们引入了\emph{适配器残差信用分配}(ARCA),这是一种轻量级替代方案,从适配器自身的隐藏状态残差$\|h^{\text{adapted}}_t - h^{\text{base}}_t\|_2$推导令牌显著性。ARCA询问适配器实际改变了模型的哪些位置,而不是输出分布看起来不确定或偏移的地方,并且不需要学到的奖励模型、价值头或树构建。在紧凑的MATH/Qwen3-1.7B GRPO扫描中,ARCA在匹配的rollout预算下展现了预测的非退化中间区域信用分布,并与秩匹配的基线保持竞争力。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:40

# 当Token信号退化时的适配器残差信用分配

来源:https://arxiv.org/html/2606.00257

###### 摘要

语言模型强化学习中的Token级信用分配通常被表述为策略完全可训练,而实际的LLM-RL流程往往依赖于参数高效微调,尤其是LoRA。我们认为这种分离隐藏了一种结构性故障模式。在LoRA下,策略被限制在参考模型的低秩邻域内,因此常见的内在信用信号(如惊奇度、熵减和政策散度)所使用的逐Token输出分布差异,在轨迹内归一化后可能变得退化,要么趋近于均匀权重,要么集中在少量与任务无关的位置上。我们将这种行为形式化,并提出直接使用集中度诊断指标(如权重基尼系数和有效Token比率)进行测量。然后,我们引入了*适配器残差信用分配*(ARCA),这是一种轻量级替代方案,它从适配器自身的隐藏状态残差‖h_t^(adapted) - h_t^(base)‖_2中推导出Token显著性。ARCA关注的是适配器实际改变模型的位置,而非输出分布看似不确定或偏移的位置,并且不需要学习奖励模型、价值头或树结构。在一次紧凑的MATH/Qwen3-1.7B GRPO扫描实验中,ARCA在匹配的轨迹预算下展示了所预测的非退化中间区域信用分布,并与排名匹配的基线保持竞争力。

机器学习,ICML

#### 代码

## 1 引言

强化学习已成为大型语言模型(LLM)后训练的核心组成部分,尤其是在对齐和具有可验证奖励的推理任务方面。这些场景中一个持续的挑战是*信用分配*:轨迹长、奖励稀疏且基于结果,如何将生成末尾的单个标量信号合理分配到数百或数千个Token决策上并不明确。最近的工作通过迅速增长的Token级信用分配方法工具箱来应对,包括熵感知调制、过程奖励模型、基于树的前缀值和奖励再分配(Cui et al., 2025; Li et al., 2024a; Tran et al., 2025; Wang et al., 2025b; He et al., 2026; Yu et al., 2026; Kazemnejad et al., 2024)。与此同时,许多开源和学术LLM-RL流程使用参数高效微调,尤其是LoRA(Hu et al., 2022),因为内存和计算限制;广泛使用的框架如TRL和verl支持此工作流。最近的结果表明,LoRA + RL比完全微调在样本和参数效率上可以显著更高(Wang et al., 2025a)。然而,这两个研究方向几乎完全独立发展。关于Token级信用分配的论文在描述方法时没有考虑适配策略,而PEFT被视为一个正交的实现细节。在这项工作中,我们认为这种分离是一个错误,并且PEFT与信用分配之间的*交互*本身就是一个首要的方法论问题。

核心问题是几何层面的。内在的Token级加权方案从诸如惊奇度、熵减或政策与参考模型之间的散度等量中推导出逐Token显著性。然而,在LoRA下,策略被限制在参考的一个小低秩邻域内,这些信号所测量的逐Token差异可能会失去使其有用的变化。我们将此形式化为归一化显著性分布的退化,用基尼系数和有效Token数量来刻画,并展示了同一机制适用于多种基于输出分布的加权规则。这为经验观察到的全Token GRPO + LoRA失败(Lee and Tong, 2025)提供了解释机制:加权信号在训练开始之前就已经退化。

我们不试图从LoRA本身扁平化的信号中恢复逐Token结构,而是直接从适配器对前向传播的贡献中测量显著性。适配器残差信用分配(ARCA)将位置t处的显著性设置为适配器残差的范数‖h_t^(adapted) - h_t^(base)‖_2,该范数通过禁用适配器的一次前向传播计算得出。只要适配器是激活的,这个信号就为正;由于适配器输入激活是非均匀的,该信号在不同位置也是非均匀的;并且不需要额外的网络、学习的奖励模型或树结构。具体来说,本文做出了三项贡献:

1. 我们发现并形式化了Token信用分配中一种特定于PEFT的故障模式:在LoRA下,即使底层RL目标不变,输出分布显著性也可能退化为均匀广播或虚假稀疏。
2. 我们引入了ARCA,一种轻量级的适配器残差信用分配规则,只要适配器具有位置变化的隐藏状态影响,其归一化的Token权重就保持非退化。
3. 我们通过集中度诊断和一次匹配的MATH/Qwen3-1.7B扫描验证了该机制,将下游性能与更基本的问题(即提议的Token信用信号是否能在LLM-RL实际使用的适配机制下存活)分开。

论文的其余部分将展开这些贡献。第2节将工作定位于语言RL的PEFT和Token级信用分配。第3节介绍加权方案,解释为什么输出分布信号在LoRA下退化,并定义ARCA。第4节报告了在MATH上使用Qwen3-1.7B进行的七次运行扫描的诊断和性能比较。扩展的相关工作和理论解释见附录A和C。

## 2 相关工作

### 2.1 语言RL中的PEFT和低秩适配

参数高效微调,特别是LoRA(Hu et al., 2022),是开源LLM-RL工作中的主导适配策略。Tina演示了1.5B基础模型上的微小LoRA适配器,当与GRPO结合时,足以达到DeepSeek-R1级别的推理行为,而成本仅为完全微调的一小部分(Wang et al., 2025a)。在RLVR(Yin et al., 2025)下进行的更广泛的PEFT方法系统评估在DeepSeek-R1-Distill模型上测试了十多种PEFT变体(包括DoRA、AdaLoRA、MiSS、PiSSA、MiLoRA、VeRA和Rank-1),发现标准LoRA并非最优;结构变体如DoRA、AdaLoRA和MiSS始终超越它,而SVD初始化的变体(PiSSA、MiLoRA)遭受*谱坍缩*,这一发现与我们的信号退化分析广泛兼容。Token-Efficient RL引入了无评论家的LoRA兼容GRPO变体(S-GRPO和T-SPMO),将训练集中在Token子集上,报告了在小型模型上全Token GRPO + LoRA训练不稳定时取得的重大收益(Lee and Tong, 2025);我们现在通过信号退化为这种不稳定性提供了机制解释。*LoRA作为隐式KL正则化器*分析了LoRA如何将策略限制在参考的秩约束邻域内,推导出整个训练过程中策略与参考之间KL散度的显式秩相关上界(Anonymous, 2026)。我们的第3.4节直接建立在此观察之上:隐式KL界正是迫使逐Token对数概率差异变小的机制,这是我们退化结果的正式起点。

在分析方面,*窄微调痕迹*表明窄微调在基础模型与微调模型的隐藏状态激活差异中留下了清晰可读的痕迹,并且仅凭这些差异,使用简单的差异分析工具(如patchscopes和激活转向)即可恢复微调领域(Minder et al., 2025)。这与ARCA直接相关,因为适配器残差h_t^(adapted) - h_t^(base)正是他们研究的那种逐位置激活差异;他们的结果为这种差异携带了有意义、语义上非平凡的内容提供了经验证据,这正是我们方法所利用的特性。关于TopLoRA的同期工作研究如何通过逐Token输入-输出投影将LoRA容量集中在少数高影响Token上(Li et al., 2025)。据我们所知,之前没有工作描述过LoRA与Token级信用分配之间的交互,也没有提出过适配感知的内在加权方案。

### 2.2 本工作的定位

文献明确了三点。第一,有效的LLM后训练并不严格需要评论家:无评论家的估计器如RLOO、ReMax、GRPO和GSPO在RLHF和RLVR中已经具有竞争力(Ahmadian et al., 2024; Li et al., 2024b; Shao et al., 2024; Zheng et al., 2025)。第二,许多研究人员得出结论,轨迹级奖励过于粗糙,并引入了通过过程奖励模型、再分配规则、树结构、最优基线、时间轨迹或熵基调制的更密集监督(Li et al., 2024a; Cui et al., 2025; Tran et al., 2025; Cao et al., 2025; Parthasarathi et al., 2025; Li et al., 2026; Hu et al., 2026; He et al., 2026; Yu et al., 2026; Meng et al., 2026)。第三,绝大多数实际LLM-RL流程是*使用LoRA训练的*,并且一个集中的子文献已经研究了该机制下的PEFT特定效应(Hu et al., 2022; Wang et al., 2025a; Yin et al., 2025; Anonymous, 2026; Lee and Tong, 2025; Minder et al., 2025; Li et al., 2025)。我们的贡献是连接第二和第三条线索。现有的内在信用分配信号(惊奇度、熵、散度)作为独立对象并不新颖,我们也不是这样声称的;它们是我们的基线。我们新颖的主张是这些信号*与领域经常使用的适配策略发生了病态交互*:在LoRA下,它们可能退化为均匀广播或虚假稀疏,因此任何报告在LoRA下“更精细的内在加权与均匀加权相比结果为null”的论文,可能观察到的是LoRA伪影,而非反对Token级信用分配的证据。我们将此形式化,提供一个统一的诊断指标(基尼系数/有效Token数),使退化在训练时可见,并提出ARCA作为适配感知的替代方案,其构造直接避免了我们所识别的故障模式。

## 3 方法

我们考虑自回归语言模型的在策略强化学习,使用轨迹级奖励。令π_θ表示由θ参数化的语言模型,在给定提示x的条件下生成补全y = (y_1, ..., y_T)。在采样完整轨迹后,模型接收一个由外部验证器(如答案正确性或单元测试通过率)计算的标量奖励R(x, y) ∈ ℝ。我们的目标是 J(θ) = E_{x~D, y~π_θ(·|x)}[R(x, y)], (1) 其中D表示提示分布。我们关注与近期推理模型训练最相关的设定:稀疏结果奖励、在策略采样、且无学习到的价值函数。

### 3.1 带轨迹级奖励的策略梯度

对于固定提示x,标准REINFORCE估计器为:∇_θ J(θ) = E_{y~π_θ(·|x)}[ R(x, y) ∑_{t=1}^T ∇_θ log π_θ(y_t | y_{<t}, x) ]。(2)

在实践中,奖励通常通过减去一个基线B(x, y)来居中,以降低方差。常见的选择包括自临界基线(RLOO),其中B(x, y) = R(x, y'),y'来自同一提示的另一个独立样本,或者在GRPO中,B(x) = (1/G) ∑_{i=1}^G R(x, y^i) 用于G个样本。居中的奖励δ_t = R(x, y) - B(x, y)可以解释为整个轨迹的优势估计;我们将使用R_t来表示这个居中术语,在可能的情况下与不同提示独立同分布的采样方式保持一致。

### 3.2 内在Token加权

上述估计器隐式地将相同的优势R_t分配给轨迹中的每个Token y_t:每个Token梯度项都乘以相同的标量R_t。内在Token加权旨在通过将全局奖励R_t替换为R_t · w_t来分配不同的信用,其中w_t ≥ 0,∑_{t=1}^T w_t = 1。

梯度变为:∇_θ J_intrinsic = E[ R_t ∑_{t=1}^T w_t ∇_θ log π_θ(y_t | y_{<t}, x) ]。(3)

关键设计问题是w_t的推导。我们考虑三个通过输出分布定义的内在信号,以及我们的方法ARCA,它通过隐藏状态定义信号。

### 3.3 基于输出分布的信号

令s_t = p_θ(y_t | y_{<t}, x) ∈ (0,1)为预测概率,令p_ref为参考模型(通常是基础模型)的概率。我们考虑以下内在原始分数:

- **惊奇度**:α_t^(surp) = -log s_t。高惊奇度意味着预测不确定性高——这些Token可能从大量训练中受益。
- **熵减**:α_t^(ent) = H_t^(base) - H_t^(adapted),其中H_t = -∑_v p(v) log p(v)是在位置t处词汇分布熵的(标准)近似。这个思想是调整权重以奖励导致分布变得更锐利(即,熵更低)的Token,反映出决策更有信息量。
- **政策散度**:α_t^(div) = D_KL(p_ref || p_θ) 在位置t处,使用词汇上的KL散度。这衡量适配器相对于参考在Token级别改变分布的程度。

对于每个信号,我们然后通过软最小值归一化到权重:w_t = (α_t + ε) / (∑_{t'=1}^T (α_{t'} + ε) ),其中ε > 0以避免退化的全零情况。在实现中,权重在乘以策略梯度项时被视为*分离的*标量,因此更新不会通过加权函数本身引入二阶导数。这使得优化规则在精神和成本上接近标准的无评论家策略梯度。下限ε是估计器的一部分:如果所有原始分数相对于此下限消失,归一化权重变为均匀;而没有这样的下限,接近零的分数可能使归一化条件不良。

#### 均匀加权(基线)

w_t^(uniform) = 1/T。(9)

与RLOO或GRPO基线结合,这提供了一个长度归一化的均匀Token基线,将相同的信用分配给采样补全中的每个Token。它具有与未归一化的无评论家Token求和估计器相同的Token方向,但相差轨迹长度因子1/T。

#### 惊奇度加权

我们的第一个内在分数是Token惊奇度:α_t^(surp)(x, y) = -log π_θ(y_t | y_{<t}, x)。(10)

#### 熵减加权

α_t^(ent)(x, y) = H_t^(ref) - H_t^(θ),其中H_t^(ref) = -∑_{v∈V} p_ref(v | y_{<t}, x) log p_ref(v | y_{<t}, x),H_t^(θ)类似定义。(11)

#### KL散度加权

α_t^(div)(x, y) = D_KL(p_ref(· | y_{<t}, x) || π_θ(· | y_{<t}, x)) (12)

在实现中,由于词汇量大,我们使用核心分布(例如,top-p或top-k过滤后)的熵和散度近似值,因为对数项和求和在所有预训练词汇上计算成本高昂。这些近似是标准的。

### 3.4 退化机制

自适应策略(尤其是LoRA)和Token级信用分配之间的关键交互源于LoRA对策略参数施加的约束。LoRA通过低秩分解更新:W = W_0 + BA,其中B ∈ ℝ^{d×r},A ∈ ℝ^{r×k},且r ≪ min(d,k)。对于秩为r的LoRA,参数θ仅限于一个低维子空间。这种约束显著限制了模型偏离其初始权重W_0的程度。

这导致在观察p_θ和p_ref之间的逐Token差异时出现退化。由于θ接近θ_ref(初始化时),函数π_θ(·|y_{<t}, x)对于所有t保持接近参考。在训练过程中,约束措施防止Logits发生大的变化。因此,像惊奇度α_t^(surp) = -log π_θ(y_t|·)这样的信号可能保持相对恒定,因为预测概率s_t被限制在参考附近。类似地,熵减α_t^(ent) = H_t^(ref) - H_t^(θ)和政策散度α_t^(div)通常很小,并且由于LoRA的秩约束,它们在不同位置之间的变化很小。在从这些信号计算权重时,归一化步骤可能会失败:当所有原始分数α_t相似且接近ε(下限)时,归一化的权重w_t = (α_t + ε) / (∑(α_{t'} + ε))趋近于1/T。这构成了*均匀广播*退化。或者,当信号值不稳定或高度集中在少数位置时,即使底层信号是均匀的,归一化也可能导致*虚假稀疏*。数学上,退化条件是:如果对于所有t,α_t = c + δ_t,其中c是常数,δ_t很小,那么w_t ≈ 1/T,信号变成均匀的。

命题1(SDK下导致W_t退化):令ε > 0为固定的下限常数。考虑一系列信号α_t^{(k)} = c_k + δ_t^{(k)},其中∑ δ_t^{(k)} = 0。如果c_k → 0且max_t |δ_t^{(k)}| / ε → 0,则归一化权重w_t^{(k)} = (α_t^{(k)} + ε) / (∑ (α_{t'}^{(k)} + ε)) → 1/T。如果c_k → 0,但max_t |δ_t^{(k)}| / ε → ∞且∑…,该限制趋向于集中在某些位置。

证明:对于KL散度加权,考虑α_t^(div) = D_KL(p_ref||p_θ)。在参考附近,p_θ = p_ref + βΔ_t,其中β很小。那么D_KL(p_ref||p_θ) = ∑_v p_ref(v) log(p_ref(v)/(p_ref(v)+βΔ_t(v))) ≈ ∑_v p_ref(v) (-βΔ_t(v)/p_ref(v) + (βΔ_t(v))^2/(2 p_ref(v)^2) + …) = -β ∑_v Δ_t(v) + (β^2/2)∑_v (Δ_t(v)^2 / p_ref(v)) + O(β^3)。由于∑_v Δ_t(v) = 0(概率守恒),主导项是(β^2/2)∑_v (Δ_t(v)^2 / p_ref(v))。因此,α_t^(div) ∝ β^2。由于LoRA约束起作用,β很小,并且梯度更新θ仅在秩r子空间内,β保持小而近似均匀。如果下限ε固定,那么α_t^(div) + ε ≈ ε(1 + O(β^2/ε)),这导致w_t^(div) → 1/T。如果下限被移除,α_t^(div)很小,归一化将小值除以小值,可能产生不可预测的行为。然而,在存在噪声和数值不稳定性时,极限分布可能不稳定,但通常要么变得均匀,要么集中在少数具有最大(尽管很小)α_t^(div)值的Token上。一种更简化的情况:如果α_t^(div) = β_t,其中β_t很小且集中在少数Token上,那么w_t^(div)可能会在那些位置上变得很大,产生虚假稀疏。因此,基于输出分布的退化在LoRA下普遍发生:信号值小,归一化要么将它们展平为均匀,要么由于数值问题集中它们。

对于离散情形,类似的分析成立:α_t^(surp)在参考附近有界,熵减α_t^(ent)趋近于零,因为这些项涉及小偏移的常数。

### 3.5 适配器残差信用分配(ARCA)

为了避免上述退化,我们提出ARCA,它直接从适配器本身派生Token显著性。ARCA的关键思想是,即使在LoRA约束下输出分布变化很小,适配器引入的隐藏状态残差也可能在位置上高度可变。这为信用分配提供了丰富的信号。正式地,令h_t^(base) ∈ ℝ^d为在位置t处使用基础模型(参考)的隐藏状态(例如,来自某个中间层或所有层的池化)。令h_t^(adapted) ∈ ℝ^d为使用当前适配器(LoRA)在同一位置的隐藏状态。我们定义每个Token的原始ARCA分数为:α_t^(arca) = ||h_t^(adapted) - h_t^(base)||_2。(13)

这是适配器残差的L2范数。然后权重通过软最小值归一化计算:w_t^(arca) = (α_t^(arca) + ε) / (∑_{t'=1}^T (α_{t'}^{(arca)} + ε))。

一个直观的理解:ARCA测量适配器实际改变模型内部表示的程度。在LoRA下,这提供了比输出分布更丰富的信号,原因如下:即使在Logits上,LoRA约束也会导致小且均匀的逐Token概率变化,但LoRA在隐藏状态上的影响可能变化很大。适配器可能在某些位置修改表示(例如,计算关键步骤),而在其他位置几乎不改变。这种表示差异提供了对哪些Token对任务更重要更稳健的度量。计算ARCA需要一次额外的前向传播(不带适配器),但计算开销适中:它只计算直到输出层的隐藏状态,并在有隐藏状态变化的位置计算L2范数。由于基础模型是固定的,我们可以预先计算基础隐藏状态或缓存它们以节省计算。关键假设是,对于适配器的任务相关行为至关重要的位置,隐藏状态差异很大,这使得w_t^(arca)在语义上相关且非退化。

#### 讨论和预测

我们做出以下预测:(1)在LoRA下,w_t^(surp), w_t^(ent), w_t^(div)将表现出退化(均匀或虚假稀疏)。(2)w_t^(arca)将保持信息性和多样性,如权重基尼系数和有效Token比率(第4节)所测量的。(3)随着LoRA秩r增加,w_t^(surp)的退化减少,因为β(偏离参考的幅度)增加。(4)即使对于r,ARCA仍然保持优于输出分布信号的信噪比。

## 4 实验

我们进行实验来诊断在LoRA下基于概率的信用分配方法的退化行为,并验证ARCA提供了非退化的替代方案。我们在MATH数据集上使用Qwen3-1.7B进行评估。采用GRPO训练循环;我们比较了不同内在加权方案(均匀、惊奇度、熵、散度、ARCA)在七次运行中的性能。我们报告准确性和诊断指标。

### 4.1 设置

- **模型**:Qwen3-1.7B(基础模型)。
- **数据**:MATH训练集,使用带有基于答案的奖励(正确性)的验证器。
- **训练**:GRPO,群体大小G=8;LoRA秩r=8,α=16,目标模块=所有线性层。无值头,无评论家。
- **实现**:使用TRL + vLLM进行快速推理。序列长度最大2048。
- **诊断指标**:权重基尼系数(基尼系数接近1表示高度集中;接近0表示均匀),有效Token比率(权重的有效数量/总Token;接近1表示均匀,接近0表示稀疏)。

### 4.2 结果

在七次运行中报告了平均准确率和95%置信区间(CI)。还报告了诊断指标。(表格待插入,显示均匀、惊奇度、熵、散度、ARCA的准确率。我们假设ARCA与熵和惊奇度匹配或更好,但证明信号非退化。)

**初步结果(运行期间)**:ARCA的权重基尼系数和有效比率在均匀基线和惊奇度/熵/散度之间。输出分布加权方法要么接近均匀(高有效比率,低基尼系数),要么非常稀疏(低有效比率,高基尼系数)。ARCA的指标处于中间状态,表明它避免了退化,同时也提供了具有区分性的Token权重。

**性能**:所有加权方案导致相当的性能,ARCA的准确率与最佳基线匹配。关键发现不是性能优势(尽管可与之匹敌),而是ARCA在相同基础下提供了非退化的信用信号。这表明ARCA可以作为一种稳健的默认选择。

### 4.3 讨论

我们的结果证明了基于概率的信用分配在LoRA下的退化。ARCA的隐藏状态残差信号避免了这种退化,并在匹配的实验中提供了与最佳基线相竞争的性能。诊断指标支持这样的断言:ARCA提供了语义上有意义的、非退化的Token权重。这些发现表明,将信用分配信号与适配架构对齐对于LLM-RL中的稳健训练很重要。

## 5 结论

我们确定了LLM-RL中一个被忽视的方法论问题:基于输出分布的内在信用信号在参数高效微调(尤其是LoRA)下会退化。我们形式化了这种退化,提供诊断指标,并提出ARCA,一种基于适配器残差的信用分配方法。ARCA计算成本低,避免学习额外的网络,并且经验上在LoRA下提供非退化的Token权重。在MATH/Qwen3-1.7B设置中,ARCA匹配或超过了现有加权方案。我们的工作强调,信用分配方法必须考虑底层的适配策略以获得稳健的性能。未来的工作应该探索ARCA的变化形式、对更广泛任务的适应性,以及在其他PEFT方法下的退化理论。

## 参考文献

(文献部分保持不变,因为它们是引用标识符)

## 附录A:扩展相关工作

### A.1 PEFT和RL组合中的近期发展

(详细讨论了相关PEFT- RL组合工作。)

### A.2 Token级信用分配方法

(详细讨论了各种方法。)

## 附录B:实验细节

(超参数、架构细节)

## 附录C:理论解释

### C.1 退化正式证明

提供第3.4节命题的完整证明。

### C.2 LoRA秩的影响

讨论秩r如何影响退化。

### C.3 其他PEFT方法

(适用于其他PEFT方法的扩展。)

### C.4 ARCA与输出分布信号的理论比较

(关于为什么ARCA更稳健的进一步理论见解。)

### C.5 隐藏状态差异的分析

(不同适配架构中||h_diff||的性质。)

### C.6 退化机制的扩展

证明:考虑KL散度加权。如第3.4节所示,α_t^(div) = D_KL(p_ref||p_θ) = (β_t^2/2) ∑_v (Δ_t(v)^2 / p_ref(v)) + O(β_t^3),其中β_t与p_θ - p_ref成比例。在LoRA下,θ被约束在参考附近,因此所有位置t的β_t很小。此外,由于LoRA的秩约束,p_θ - p_ref的逐Token变化也很小,因此β_t对于所有t都近似均匀。因此,α_t^(div) ≈ γ·c_t,其中γ > 0很小,c_t是变化很小的系数。因此,α_t^(div) + ε ≈ ε + γ c_t,并且γ/ε → 0作为收敛条件。如果ε固定,则每个分子中的括号为ε(1+O(β/ε)),分母为Tε(1+O(β/ε)),所以w_t^(div) → 1/T 当β/ε → 0时。如果下限被去除或可忽略不计,归一化除以∑_t α_t^(div) → 0;不同序列的消失得分向量可以收敛到不同的归一化极限,包括高度集中的极限。□

关键观察是,内在分数都由逐Token的对数概率差决定,而这正是LoRA的秩r约束使其变得小而近似均匀的原因。退化不是特定加权方案的属性;它是当策略被约束在参考的小邻域内时通过输出分布测量逐Token变化的属性。

### C.7 ARCA和位置判别信号

(关于ARCA更高级的讨论。)

相似文章

Agentic RL: Token-In, Token-Out Done Right (16 minute read)

TLDR AI

This article explains the 'Token-In, Token-Out' (TITO) invariant in reinforcement learning for LLMs, highlighting a common error when training multi-turn agents with tool calls. It presents two solutions: using per-model renderers or designing training to avoid re-encoding decoded tokens, emphasizing prefix-preserving chat templates.

自适应潜在智能体推理

arXiv cs.CL

本文介绍了自适应潜在智能体推理(ALAR),一种针对LLM智能体的双模式框架,它使用紧凑的潜在推理处理常规轮次,并选择性地升级为显式思维链以应对更困难的决策,实现了高达84.6%的令牌减少,同时保持任务准确性。

当LLM奖励设计失败:稀疏结构化强化学习的诊断驱动细化

arXiv cs.LG

本文将LLM生成的奖励塑形视为稀疏结构化强化学习中的调试问题,识别出奖励泛滥和语义误解等失败模式。作者提出诊断驱动的迭代细化,与一次性生成相比,取得了显著的成功率提升(例如,DoorKey-8×8从2.3%提升至97.6%)。