将RL诱导的工具使用定位到单个Crosscoder特征

arXiv cs.LG 2026/06/26 04:00 论文

摘要

本文使用 Dedicated Feature Crosscoders 将Qwen2.5-3B中RL诱导的工具使用能力定位到单个可操控特征，通过特征操控实现了+65pp的工具正确性，并展示了能力溢出到冻结的基础模型。

arXiv:2606.26474v1 公告类型：新摘要：通过RL进行微调会重塑语言模型的内部表示，以实现诸如工具使用之类的智能体行为，但这些变化的机制基础仍知之甚少。尽管RL显著改善了结构化工具调用生成，但尚不清楚哪些特征出现、哪些被保留，以及已识别的特征是否可用于无需重新训练的行为控制。在这项工作中，我们证明 $\textit{Dedicated Feature Crosscoders (DFC)}$ 分离出了一组紧凑的RL特定特征，这些特征中介了 $\texttt{Qwen2.5-3B}$ 中的工具调用能力。在 $48$ 个交叉编码器超参数扫描中，编码-解码重建将RL模型的工具正确性提高了 $+31.1 \pm {9.7}$ 个百分点，并将工具调用能力被动转移到冻结的基础模型上，提高了 $+6.8 \pm 5.0$ 个百分点，我们称之为 $\textit{能力溢出}$。我们的研究结果表明，DFC分区将RL引入的能力集中到一个最小的、可操控的特征集中，从而实现了对智能体LLM的运行时行为控制。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:20

# 将RL诱导的工具使用定位到单个交叉编码器特征 来源：https://arxiv.org/html/2606.26474 Shubham BhokareAhmed Zeyad A AlzahraniBowen ChengGustavo MercierJessica Hullman ###### 摘要 通过RL进行微调重塑了语言模型的内部表示，以启用工具使用等智能体行为，但这些变化的机制基础仍知之甚少。虽然RL大幅提升了结构化工具调用的生成能力，但尚不清楚哪些特征会涌现、哪些被保留，以及识别的特征是否可用于免重训练的行为控制。在本工作中，我们展示了Dedicated Feature Crosscoders (DFC)能够分离出一组紧凑的、介导工具调用能力的RL特定特征¹¹请参见局限性部分（第7节 (https://arxiv.org/html/2606.26474#S7)）——针对Qwen2.5-3B。在4848次交叉编码器超参数扫描中，编码-解码重建将RL模型的工具正确率提升了\+31.1±9.7\+31.1\\pm\{9.7\}个百分点，并将工具调用能力被动迁移到冻结的基础模型上，提升幅度为\+6.8±5.0\+6.8\\pm 5.0个百分点，我们称之为*能力外溢*。我们的发现表明，DFC分区将RL引入的能力集中到一个最小、可操控的特征集中，从而实现对智能体LLM的运行时行为控制。 ## 1引言 大语言模型越来越多地被训练用于执行智能体任务，例如调用外部工具和与外部系统交互（Ouyang等人，2022 (https://arxiv.org/html/2606.26474#bib.bib10)）。RL使得这些行为成为可能，但RL微调如何改变模型的内部表示尚不明确。机械可解释性引入了稀疏自编码器（SAE）（Bricken等人，2023 (https://arxiv.org/html/2606.26474#bib.bib2)；Cunningham等人，2023 (https://arxiv.org/html/2606.26474#bib.bib3)；Templeton等人，2024 (https://arxiv.org/html/2606.26474#bib.bib4)）将模型激活分解为可解释的特征，而Crosscoders（Lindsey等人，2024 (https://arxiv.org/html/2606.26474#bib.bib5)）将这种共享分解扩展到两个相关模型。Dedicated Feature Crosscoders（Jiralerspong和Bricken，2025 (https://arxiv.org/html/2606.26474#bib.bib6)）进一步将联合字典划分为AA独占、BB独占和共享子字典，并通过梯度掩码强制实现排他性。我们测试了RL引入的能力差异是否如预期般集中在AA独占分区中，以及这些特征是否可用于引导以实现免重训练的行为控制。我们做出以下贡献： 1. 1.我们系统性地对ToolRL微调的Qwen2.5-3B对进行了超参数扫描，训练并评估了48个交叉编码器变体（§3.3 (https://arxiv.org/html/2606.26474#S3.SS3)\\S\\ref\{sec:hyperparam\}）。 2. 2.我们识别了*能力外溢*：将冻结基础模型的激活通过联合训练的交叉编码器处理器，被动传递了\+6.8\+6.8个百分点的工具正确率，且无需任何微调（§5.2 (https://arxiv.org/html/2606.26474#S5.SS2)\\S\\ref\{sec:spillover\}）。 3. 3.我们展示了DFC独占分区充当了一个*滤波器*，集中了最强的模型特定特征，但并未完全隔离RL引入的能力差异（*汇*）²²汇是滤波器的极限情况。只有当能力与共享结构正交时才能达到汇点。；惩罚它会降低RL模型的保真度（§5.4 (https://arxiv.org/html/2606.26474#S5.SS4)\\S\\ref\{sec:filter\}）。 4. 4.我们证明了操控单个AA独占神经元（可互换地：特征）可实现\+65.0\+65.0个百分点的Δ\\Delta工具正确率，并在绝大多数被探测的层中具有泛化能力（§6.1 (https://arxiv.org/html/2606.26474#S6.SS1)\\S\\ref\{sec:saturation\}）。 5. 5.我们提供了几何和自动解释证据，表明AA独占特征占据了一个可分离的“工具交互”区域，该区域在DFC下与共享特征和B独占特征不同，但在匹配的CrossCoder下则不然（§4 (https://arxiv.org/html/2606.26474#S4)\\S\\ref\{sec:feature\_analysis\}）。 基于DFC的模型差异分析是一种有前景的工具，可用于识别和调控RL后训练引入的表示。我们对机械可解释性的启示表明，可以实现对智能体LLM的运行时行为控制。 ## 2相关工作 参见图注(a)Crosscoders 参见图注(b)Tied Crosscoders 参见图注(c)Dedicated Feature Crosscoders 图1：用于联合稀疏分解配对模型激活的三种架构#### 稀疏自编码器与机械可解释性。SAE作为将LLM激活分解为可解释特征的工具而广受欢迎（Bricken等人，2023 (https://arxiv.org/html/2606.26474#bib.bib2)；Cunningham等人，2023 (https://arxiv.org/html/2606.26474#bib.bib3)；Templeton等人，2024 (https://arxiv.org/html/2606.26474#bib.bib4)；Elhage等人，2022 (https://arxiv.org/html/2606.26474#bib.bib1)）。这些方法基于这样的假设：模型表示是许多特征的叠加，其数量远超神经元数量，而稀疏字典学习可以恢复它们。 #### Crosscoders与模型差异分析。Crosscoders（Lindsey等人，2024 (https://arxiv.org/html/2606.26474#bib.bib5)）（图1(a) (https://arxiv.org/html/2606.26474#S2.F1.sf1)）将SAE扩展到成对模型，通过联合编码它们的激活到一个共享稀疏字典中。Dedicated Feature Crosscoders（Jiralerspong和Bricken，2025 (https://arxiv.org/html/2606.26474#bib.bib6)）（图1(c) (https://arxiv.org/html/2606.26474#S2.F1.sf3)），与Tied Crosscoders（Aranguri，2025 (https://arxiv.org/html/2606.26474#bib.bib15)）（图1(b) (https://arxiv.org/html/2606.26474#S2.F1.sf2)）类似，通过梯度掩码进一步划分字典。它强制每个模型仅读写其指定的分区。我们的工作是首次在超参数扫描中对DFC进行系统性行为评估，并首次展示了单神经元引导的饱和现象。 #### 工具使用的RL微调。ToolRL（Qian等人，2025 (https://arxiv.org/html/2606.26474#bib.bib7)）表明，来自执行反馈的RL显著改进了Qwen2.5-3B中结构化工具调用的生成。我们在整个实验中将ToolRL微调模型作为ModelAA。 #### 激活引导。我们的引导方法在交叉编码器的稀疏字典中操作，允许进行特征级别的干预（Templeton等人，2024 (https://arxiv.org/html/2606.26474#bib.bib4)）。我们识别出最小的可引导神经元子集，单个AA独占神经元足以最大化效果。 #### 自动可解释性。自动可解释性方法（Bills等人，2023 (https://arxiv.org/html/2606.26474#bib.bib16)）使用LLM评判器来标记和评分SAE特征。我们应用该协议来验证AA独占特征的解释。 ## 3方法论 ### 3.1模型与训练数据 我们研究了两个共享Qwen2.5-3B架构（d=2048d=2048，3636层）的模型：Model B（基础模型）：Qwen/Qwen2.5-3B（Qwen团队，2025 (https://arxiv.org/html/2606.26474#bib.bib9)）和Model A（RL模型）：chengq9/ToolRL-Qwen2.5-3B（Qian等人，2025 (https://arxiv.org/html/2606.26474#bib.bib7)），经过RL微调以实现结构化调用。训练使用40,00040\{,\}000个FineWeb（Penedo等人，2024 (https://arxiv.org/html/2606.26474#bib.bib17)）样本（通用领域）和40,00040\{,\}000个ToolRL指令-输出对。 ### 3.2DFC架构与训练目标 DFC字典大小为DD，划分为A独占[0,aend\)[0,a\_\{\\text\{end\}\}\)、B独占[aend,bend\)[a\_\{\\text\{end\}\},b\_\{\\text\{end\}\}\)和共享[bend,D\)[b\_\{\\text\{end\}\},D\)特征，通过梯度掩码强制排他性。训练目标如公式[[1 (https://arxiv.org/html/2606.26474#S3.E1)]所示： L=MSE(h,h^)+λsh⋅‖fsh‖1¯+λexcl2(‖fA∪sh‖1¯+‖fB∪sh‖1¯)\\begin\{split\}\\mathcal\{L\}=\{\}&\\mathrm\{MSE\}(h,\\hat\{h\})+\\lambda\_\{\\mathrm\{sh\}\}\\cdot\\overline\{\\\|f\_\{\\mathrm\{sh\}\}\\\|\_\{1\}\}\\\\ &+\\frac\{\\lambda\_\{\\mathrm\{excl\}\}\}\{2\}\\left\(\\overline\{\\\|f\_\{A\\cup\\mathrm\{sh\}\}\\\|\_\{1\}\}+\\overline\{\\\|f\_\{B\\cup\\mathrm\{sh\}\}\\\|\_\{1\}\}\\right\)\\end\{split\}(1) 其中h=(hA,hB)h=(h\_\{A\},h\_\{B\})是MLP后拼接的残差流，\|⋅‖1¯\\overline\{\|\\cdot\|\_\{1\}\}表示\|fi‖\|f\_\{i\}\|的均值。在编码器中强制Top-kk稀疏性。 ### 3.3超参数扫描 该扫描变化五个决定分解容量、稀疏性和分区结构的轴（表1 (https://arxiv.org/html/2606.26474#S3.T1)）。Architecture是顶层选择：标准Crosscoder（一个未分区的共享字典联合编码两个模型）或DFC（同一字典通过梯度掩码明确划分为A独占、B独占和共享子字典）。字典大小DD是字典可以表示的特征总数。Top-kk是稀疏性预算：每次前向传播时，只保留kk个激活最高的特征。独占比例pp（仅DFC）是分配给每个独占分区的DD的分数。λexcl\\boldsymbol\{\\lambda\_\{\\text\{excl\}\}\}是专门应用于独占分区的幅度惩罚（在表LABEL:tab:full\_sweep\_eval的CrossCoder行中，我们在等效的未掩码特征上复用相同的系数——见代码发布）：将其设置为0（“自由”）允许独占特征无额外代价地激活，而10−310^\{\-3\}（“惩罚”）则推动模型将信号路由通过共享特征，除非需要排他性，这允许我们测试独占分区是作为汇还是滤波器。 表1：4848个交叉编码器变体（3636个DFC和1212个Crosscoder），训练9,0009\{,\}000步，批次大小1,0241\{,\}024，Adam优化器lr=10−4lr=10^\{\-4\}，λsh=10−3\\lambda\_\{\\text\{sh\}\}=10^\{\-3\}。 ### 3.4行为评分标准 每个生成的响应根据三个指标进行评分（Qian等人，2025 (https://arxiv.org/html/2606.26474#bib.bib7)）： - •format_accuracy：存在且 JSON 格式中"name":"…"字段； - •tool_correctness：调用的名称模糊匹配提示中编号的工具； - •overall_score∈{−1,0,+1,+2}\\in\\\{\-1,0,\+1,\+2\\}：+2\+2 = 两者正确，0 = 仅格式正确，+1\+1 = 仅工具正确，−1\-1 = 两者都不正确。 评估：每个扫描变体使用100个保留的ToolRL提示，每个引导单元使用40个提示（种子42），贪婪解码，max_new_tokens=200，max_length=2048。 ### 3.5神经元识别与定向引导 特征根据工具使用 vs. 通用文本激活的Cohen's dd排序（公式[2 (https://arxiv.org/html/2606.26474#S3.E2)]）： di=μitool−μigen(sitool2+sigen2)/2d\_\{i\}=\\frac\{\\mu^\{\\text\{tool\}\}\_\{i\}-\\mu^\{\\text\{gen\}\}\_\{i\}\}\{\\sqrt\{(s^\{\\text\{tool\}\\ ,2\}\_\{i\}+s^\{\\text\{gen\}\\ ,2\}\_\{i\})/2\}\}(2) 并通过激发率进行过滤（ρitool≥0.3\\rho^\{\\text\{tool\}\}\_\{i\}\\geq 0.3，ρigen≤0.1\\rho^\{\\text\{gen\}\}\_\{i\}\\leq 0.1）。定向引导对模型A的残差流应用加性校正（公式[3 (https://arxiv.org/html/2606.26474#S3.E3)]）： hA′=hA+∑i∈S(α−1)⋅fi⋅Wdec[i,A,:]h^\{\\prime\}\_\{A\}=h\_\{A\}+\\sum\_\{i\\in S\}(\\alpha-1)\\cdot f\_\{i\}\\cdot W\_\{\\text\{dec\}\}[i,A,:](3) 其中SS是按did\_\{i\}排序的A独占特征子集，α\\alpha是引导系数，Wdec[i,A,:]∈RdW\_\{\\text\{dec\}\}[i,A,:]\\in\\mathbb\{R\}^\{d\}是解码器列。（第5节 (https://arxiv.org/html/2606.26474#S5)）。 ## 4特征空间分析 ### 4.1DFC与CrossCoder解码器几何 为了测试DFC观察到的分区几何（图2 (https://arxiv.org/html/2606.26474#S4.F2)）是梯度掩码架构的结果还是仅仅由于标签不平衡，我们为无约束的CrossCoder构建了一个大小匹配的代理分区。对于每个字典特征ii，解码器有两列：Wdec[i,0,:]W\_\{\\text\{dec\}\}[i,0,:]（特征解码到模型A残差流的方向）和Wdec[i,1,:]W\_\{\\text\{dec\}\}[i,1,:]（特征解码到模型B残差流的方向）。我们定义*质量比* ri=log∥Wdec[i,0,:]∥2∥Wdec[i,1,:]∥2r\_\{i\}=\\log\\!\\frac\{\\lVert W\_\{\\text\{dec\}\}[i,0,:]\\rVert\_\{2\}\}\{\\lVert W\_\{\\text\{dec\}\}[i,1,:]\\rVert\_\{2\}\}(4) 因此ri≫0r\_\{i\}\\gg 0表示特征几乎只写入模型A（实际上是A独占），ri≪0r\_\{i\}\\ll 0表示模型B（实际上是B独占），ri≈0r\_\{i\}\\approx 0表示均衡贡献（共享）。对于DFC，分区掩码强制了这个比值：前819819个特征有Wdec[i,1,:]=0W\_\{\\text\{dec\}\}[i,1,:]=0（因此ri→+∞r\_\{i\}\\to\+\\infty），接下来的819819个特征有Wdec[i,0,:]=0W\_\{\\text\{dec\}\}[i,0,:]=0（ri→−∞r\_\{i\}\\to\-\\infty），其余6,5546\{,\}554个特征具有无约束的A和B解码器。对于CrossCoder，不存在这样的约束，因此我们按rir\_\{i\}对所有8,1928\{,\}192个特征进行排序，将前819819个标记为A独占代理，后819819个标记为B独占代理，中间6,5546\{,\}554个标记为共享代理。这样产生的分区切片大小与DFC完全相同，因此UMAP分离的任何差异都可归因于训练目标（分区掩码 vs. 无掩码），而非标签不平衡。 在匹配大小的情况下，CrossCoder的A偏向特征仍然与B偏向和共享特征均匀混合。CC中的A独占代理具有*负*轮廓系数（−0.168\-0.168）——平均而言，质量比偏向A的特征更接近非A偏向的质心而非自身质心——并且kk-NN纯度从DFC的0.9840.984下降到0.1580.158，即在A偏向特征的最近邻中恢复A独占代理标签的精度下降到大约先验概率|A|/D≈10%|A|/D\\approx 10\%，这是随机标签分配下10%10\%少数类的偶然水平。CC UMAP中的HDBSCAN聚类以ARI=0.08=0.08恢复质量比标签，而DFC为0.930.93：结构根本不存在。这反驳了DFC的清晰分离是UMAP伪影的替代解释：在匹配字典大小（D=8,192D=8\{,\}192）和匹配稀疏性（k=160k=160）的情况下，当去除分区掩码时，相同的UMAP流程不会产生分离。DFC图中的几何结构是由架构分区导致的，仅凭质量不对称不足以产生它。梯度掩码重组了特征方向，而不仅仅是解码器幅度。 参见图注图2：匹配超参数下的解码器UMAP（D=8,192D=8\{,\}192，k=160k=160；n_neighbors=30n\_\{\\text\{neighbors\}\}=30，min⁡_dist=0.1\\min\\\_\\text\{dist\}=0.1，余弦度量，种子4242）。左图：DFC（dfc-D8k-excl10-freeexcl-k160）产生三个空间上不同的区域：A独占（红色），B独占（蓝色）和共享（灰色）。右图：CrossCoder（cc-D8k-k160）带有大小相同（819/819/6,554819/819/6\{,\}554）的质量比代理分区，显示A偏向和B偏向特征与共享特征在整个密集核心中均匀混合。 ## 5重建保真度与能力外溢 ### 5.1扫描级重建 表2：扫描均值±\\pm标准差，n=48n=48个交叉编码器，每个100100个保留提示。在4848个模型的扫描中，相对于重建前的基线，重建显著提升了RL模型的行为性能（表2 (https://arxiv.org/html/2606.26474#S5.T2)）。所有4848个训练变体都提升了ModelAA的工具正确率（48/4848/48）；在单侧精确二项符号检验中，针对偶然率0.50.5，这对应于p≈3.6×10−15p\\approx 3

相似文章

CacheRL：基于缓存回滚和混合奖励的多轮工具调用智能体

arXiv cs.CL

CacheRL训练用于多步工具调用任务的小型智能体基础模型，通过缓存回滚和混合奖励塑造，以100倍更少的计算量实现了92%的过程准确率（接近GPT-5的94%），并在知识迁移、缓存感知奖励以及迭代SFT/GRPO训练方面进行了创新。

跨语言引导的比喻语言生成

arXiv cs.CL

本文探讨了多语言大语言模型中内部表示的跨语言迁移，用于比喻语言生成，表明在一种语言中学习到的激活方向可以有效引导其他语言的生成。

@neural_avb: 用我的 SLM 在本地生成类似 GRPO 的 rollout，并用这个微型 RM 作为评分标准。接下来我将在…

X AI KOLs Timeline

Neural_avb 发布了一个轻量级的 Answer-eq 奖励模型，用于问答任务的强化学习训练，声称与外部评判 LM 的一致性达到 80%，且比 F1/ROUGE/BertScore 更快。

Translate-R1：基于强化学习的成本感知翻译工具使用

arXiv cs.CL

Translate-R1引入了一种基于强化学习的方法，用于大语言模型中的成本感知翻译工具使用。该模型根据自身的理解能力和一个成本敏感性参数，学会决定何时翻译输入，从而在多种语言之间实现帕累托最优权衡。

利用可验证奖励强化学习激励参数知识以优化跨文化实体翻译

arXiv cs.CL

# 利用可验证奖励强化学习激励参数知识用于跨文化实体翻译来源：[https://arxiv.org/html/2604.16881](https://arxiv.org/html/2604.16881) Jiang Zhou1, Xiaohu Zhao2, Xinwei Wu1, Tianyu Dong1, Hao Wang2, Yangyang Liu2, Heng Liu2, Linlong Xu2, Longyue Wang2, Weihua Luo2, Deyi Xiong1† 1天津大学 TJUNLP 实验室，中国 2阿里巴巴集团，中国 [dyxiong@tju\.edu\.cn](https://arxiv.org/html/2604.16881v1/mailto:[email protected]) ###### 摘

相似文章

CacheRL：基于缓存回滚和混合奖励的多轮工具调用智能体

跨语言引导的比喻语言生成

@neural_avb: 用我的 SLM 在本地生成类似 GRPO 的 rollout，并用这个微型 RM 作为评分标准。接下来我将在…

Translate-R1：基于强化学习的成本感知翻译工具使用

利用可验证奖励强化学习激励参数知识以优化跨文化实体翻译

提交意见反馈