将RL诱导的工具使用定位到单个Crosscoder特征
摘要
本文使用 Dedicated Feature Crosscoders 将Qwen2.5-3B中RL诱导的工具使用能力定位到单个可操控特征,通过特征操控实现了+65pp的工具正确性,并展示了能力溢出到冻结的基础模型。
查看缓存全文
缓存时间: 2026/06/26 05:20
# 将RL诱导的工具使用定位到单个交叉编码器特征 来源:https://arxiv.org/html/2606.26474 Shubham BhokareAhmed Zeyad A AlzahraniBowen ChengGustavo MercierJessica Hullman ###### 摘要 通过RL进行微调重塑了语言模型的内部表示,以启用工具使用等智能体行为,但这些变化的机制基础仍知之甚少。虽然RL大幅提升了结构化工具调用的生成能力,但尚不清楚哪些特征会涌现、哪些被保留,以及识别的特征是否可用于免重训练的行为控制。在本工作中,我们展示了Dedicated Feature Crosscoders (DFC)能够分离出一组紧凑的、介导工具调用能力的RL特定特征¹¹请参见局限性部分(第7节 (https://arxiv.org/html/2606.26474#S7))——针对Qwen2.5-3B。在4848次交叉编码器超参数扫描中,编码-解码重建将RL模型的工具正确率提升了\+31.1±9.7\+31.1\\pm\{9.7\}个百分点,并将工具调用能力被动迁移到冻结的基础模型上,提升幅度为\+6.8±5.0\+6.8\\pm 5.0个百分点,我们称之为*能力外溢*。我们的发现表明,DFC分区将RL引入的能力集中到一个最小、可操控的特征集中,从而实现对智能体LLM的运行时行为控制。 ## 1引言 大语言模型越来越多地被训练用于执行智能体任务,例如调用外部工具和与外部系统交互(Ouyang等人,2022 (https://arxiv.org/html/2606.26474#bib.bib10))。RL使得这些行为成为可能,但RL微调如何改变模型的内部表示尚不明确。机械可解释性引入了稀疏自编码器(SAE)(Bricken等人,2023 (https://arxiv.org/html/2606.26474#bib.bib2);Cunningham等人,2023 (https://arxiv.org/html/2606.26474#bib.bib3);Templeton等人,2024 (https://arxiv.org/html/2606.26474#bib.bib4))将模型激活分解为可解释的特征,而Crosscoders(Lindsey等人,2024 (https://arxiv.org/html/2606.26474#bib.bib5))将这种共享分解扩展到两个相关模型。Dedicated Feature Crosscoders(Jiralerspong和Bricken,2025 (https://arxiv.org/html/2606.26474#bib.bib6))进一步将联合字典划分为AA独占、BB独占和共享子字典,并通过梯度掩码强制实现排他性。我们测试了RL引入的能力差异是否如预期般集中在AA独占分区中,以及这些特征是否可用于引导以实现免重训练的行为控制。我们做出以下贡献: 1. 1.我们系统性地对ToolRL微调的Qwen2.5-3B对进行了超参数扫描,训练并评估了48个交叉编码器变体(§3.3 (https://arxiv.org/html/2606.26474#S3.SS3)\\S\\ref\{sec:hyperparam\})。 2. 2.我们识别了*能力外溢*:将冻结基础模型的激活通过联合训练的交叉编码器处理器,被动传递了\+6.8\+6.8个百分点的工具正确率,且无需任何微调(§5.2 (https://arxiv.org/html/2606.26474#S5.SS2)\\S\\ref\{sec:spillover\})。 3. 3.我们展示了DFC独占分区充当了一个*滤波器*,集中了最强的模型特定特征,但并未完全隔离RL引入的能力差异(*汇*)²²汇是滤波器的极限情况。只有当能力与共享结构正交时才能达到汇点。;惩罚它会降低RL模型的保真度(§5.4 (https://arxiv.org/html/2606.26474#S5.SS4)\\S\\ref\{sec:filter\})。 4. 4.我们证明了操控单个AA独占神经元(可互换地:特征)可实现\+65.0\+65.0个百分点的Δ\\Delta工具正确率,并在绝大多数被探测的层中具有泛化能力(§6.1 (https://arxiv.org/html/2606.26474#S6.SS1)\\S\\ref\{sec:saturation\})。 5. 5.我们提供了几何和自动解释证据,表明AA独占特征占据了一个可分离的“工具交互”区域,该区域在DFC下与共享特征和B独占特征不同,但在匹配的CrossCoder下则不然(§4 (https://arxiv.org/html/2606.26474#S4)\\S\\ref\{sec:feature\_analysis\})。 基于DFC的模型差异分析是一种有前景的工具,可用于识别和调控RL后训练引入的表示。我们对机械可解释性的启示表明,可以实现对智能体LLM的运行时行为控制。 ## 2相关工作 参见图注(a)Crosscoders 参见图注(b)Tied Crosscoders 参见图注(c)Dedicated Feature Crosscoders 图1:用于联合稀疏分解配对模型激活的三种架构#### 稀疏自编码器与机械可解释性。SAE作为将LLM激活分解为可解释特征的工具而广受欢迎(Bricken等人,2023 (https://arxiv.org/html/2606.26474#bib.bib2);Cunningham等人,2023 (https://arxiv.org/html/2606.26474#bib.bib3);Templeton等人,2024 (https://arxiv.org/html/2606.26474#bib.bib4);Elhage等人,2022 (https://arxiv.org/html/2606.26474#bib.bib1))。这些方法基于这样的假设:模型表示是许多特征的叠加,其数量远超神经元数量,而稀疏字典学习可以恢复它们。 #### Crosscoders与模型差异分析。Crosscoders(Lindsey等人,2024 (https://arxiv.org/html/2606.26474#bib.bib5))(图1(a) (https://arxiv.org/html/2606.26474#S2.F1.sf1))将SAE扩展到成对模型,通过联合编码它们的激活到一个共享稀疏字典中。Dedicated Feature Crosscoders(Jiralerspong和Bricken,2025 (https://arxiv.org/html/2606.26474#bib.bib6))(图1(c) (https://arxiv.org/html/2606.26474#S2.F1.sf3)),与Tied Crosscoders(Aranguri,2025 (https://arxiv.org/html/2606.26474#bib.bib15))(图1(b) (https://arxiv.org/html/2606.26474#S2.F1.sf2))类似,通过梯度掩码进一步划分字典。它强制每个模型仅读写其指定的分区。我们的工作是首次在超参数扫描中对DFC进行系统性行为评估,并首次展示了单神经元引导的饱和现象。 #### 工具使用的RL微调。ToolRL(Qian等人,2025 (https://arxiv.org/html/2606.26474#bib.bib7))表明,来自执行反馈的RL显著改进了Qwen2.5-3B中结构化工具调用的生成。我们在整个实验中将ToolRL微调模型作为ModelAA。 #### 激活引导。我们的引导方法在交叉编码器的稀疏字典中操作,允许进行特征级别的干预(Templeton等人,2024 (https://arxiv.org/html/2606.26474#bib.bib4))。我们识别出最小的可引导神经元子集,单个AA独占神经元足以最大化效果。 #### 自动可解释性。自动可解释性方法(Bills等人,2023 (https://arxiv.org/html/2606.26474#bib.bib16))使用LLM评判器来标记和评分SAE特征。我们应用该协议来验证AA独占特征的解释。 ## 3方法论 ### 3.1模型与训练数据 我们研究了两个共享Qwen2.5-3B架构(d=2048d=2048,3636层)的模型:Model B(基础模型):Qwen/Qwen2.5-3B(Qwen团队,2025 (https://arxiv.org/html/2606.26474#bib.bib9))和Model A(RL模型):chengq9/ToolRL-Qwen2.5-3B(Qian等人,2025 (https://arxiv.org/html/2606.26474#bib.bib7)),经过RL微调以实现结构化调用。训练使用40,00040\{,\}000个FineWeb(Penedo等人,2024 (https://arxiv.org/html/2606.26474#bib.bib17))样本(通用领域)和40,00040\{,\}000个ToolRL指令-输出对。 ### 3.2DFC架构与训练目标 DFC字典大小为DD,划分为A独占[0,aend\)[0,a\_\{\\text\{end\}\}\)、B独占[aend,bend\)[a\_\{\\text\{end\}\},b\_\{\\text\{end\}\}\)和共享[bend,D\)[b\_\{\\text\{end\}\},D\)特征,通过梯度掩码强制排他性。训练目标如公式[[1 (https://arxiv.org/html/2606.26474#S3.E1)]所示: L=MSE(h,h^)+λsh⋅‖fsh‖1¯+λexcl2(‖fA∪sh‖1¯+‖fB∪sh‖1¯)\\begin\{split\}\\mathcal\{L\}=\{\}&\\mathrm\{MSE\}(h,\\hat\{h\})+\\lambda\_\{\\mathrm\{sh\}\}\\cdot\\overline\{\\\|f\_\{\\mathrm\{sh\}\}\\\|\_\{1\}\}\\\\ &+\\frac\{\\lambda\_\{\\mathrm\{excl\}\}\}\{2\}\\left\(\\overline\{\\\|f\_\{A\\cup\\mathrm\{sh\}\}\\\|\_\{1\}\}+\\overline\{\\\|f\_\{B\\cup\\mathrm\{sh\}\}\\\|\_\{1\}\}\\right\)\\end\{split\}(1) 其中h=(hA,hB)h=(h\_\{A\},h\_\{B\})是MLP后拼接的残差流,\|⋅‖1¯\\overline\{\|\\cdot\|\_\{1\}\}表示\|fi‖\|f\_\{i\}\|的均值。在编码器中强制Top-kk稀疏性。 ### 3.3超参数扫描 该扫描变化五个决定分解容量、稀疏性和分区结构的轴(表1 (https://arxiv.org/html/2606.26474#S3.T1))。Architecture是顶层选择:标准Crosscoder(一个未分区的共享字典联合编码两个模型)或DFC(同一字典通过梯度掩码明确划分为A独占、B独占和共享子字典)。字典大小DD是字典可以表示的特征总数。Top-kk是稀疏性预算:每次前向传播时,只保留kk个激活最高的特征。独占比例pp(仅DFC)是分配给每个独占分区的DD的分数。λexcl\\boldsymbol\{\\lambda\_\{\\text\{excl\}\}\}是专门应用于独占分区的幅度惩罚(在表LABEL:tab:full\_sweep\_eval的CrossCoder行中,我们在等效的未掩码特征上复用相同的系数——见代码发布):将其设置为0(“自由”)允许独占特征无额外代价地激活,而10−310^\{\-3\}(“惩罚”)则推动模型将信号路由通过共享特征,除非需要排他性,这允许我们测试独占分区是作为汇还是滤波器。 表1:4848个交叉编码器变体(3636个DFC和1212个Crosscoder),训练9,0009\{,\}000步,批次大小1,0241\{,\}024,Adam优化器lr=10−4lr=10^\{\-4\},λsh=10−3\\lambda\_\{\\text\{sh\}\}=10^\{\-3\}。 ### 3.4行为评分标准 每个生成的响应根据三个指标进行评分(Qian等人,2025 (https://arxiv.org/html/2606.26474#bib.bib7)): - •format_accuracy:存在且 JSON 格式中"name":"…"字段; - •tool_correctness:调用的名称模糊匹配提示中编号的工具; - •overall_score∈{−1,0,+1,+2}\\in\\\{\-1,0,\+1,\+2\\}:+2\+2 = 两者正确,0 = 仅格式正确,+1\+1 = 仅工具正确,−1\-1 = 两者都不正确。 评估:每个扫描变体使用100个保留的ToolRL提示,每个引导单元使用40个提示(种子42),贪婪解码,max_new_tokens=200,max_length=2048。 ### 3.5神经元识别与定向引导 特征根据工具使用 vs. 通用文本激活的Cohen's dd排序(公式[2 (https://arxiv.org/html/2606.26474#S3.E2)]): di=μitool−μigen(sitool2+sigen2)/2d\_\{i\}=\\frac\{\\mu^\{\\text\{tool\}\}\_\{i\}-\\mu^\{\\text\{gen\}\}\_\{i\}\}\{\\sqrt\{(s^\{\\text\{tool\}\\ ,2\}\_\{i\}+s^\{\\text\{gen\}\\ ,2\}\_\{i\})/2\}\}(2) 并通过激发率进行过滤(ρitool≥0.3\\rho^\{\\text\{tool\}\}\_\{i\}\\geq 0.3,ρigen≤0.1\\rho^\{\\text\{gen\}\}\_\{i\}\\leq 0.1)。定向引导对模型A的残差流应用加性校正(公式[3 (https://arxiv.org/html/2606.26474#S3.E3)]): hA′=hA+∑i∈S(α−1)⋅fi⋅Wdec[i,A,:]h^\{\\prime\}\_\{A\}=h\_\{A\}+\\sum\_\{i\\in S\}(\\alpha-1)\\cdot f\_\{i\}\\cdot W\_\{\\text\{dec\}\}[i,A,:](3) 其中SS是按did\_\{i\}排序的A独占特征子集,α\\alpha是引导系数,Wdec[i,A,:]∈RdW\_\{\\text\{dec\}\}[i,A,:]\\in\\mathbb\{R\}^\{d\}是解码器列。(第5节 (https://arxiv.org/html/2606.26474#S5))。 ## 4特征空间分析 ### 4.1DFC与CrossCoder解码器几何 为了测试DFC观察到的分区几何(图2 (https://arxiv.org/html/2606.26474#S4.F2))是梯度掩码架构的结果还是仅仅由于标签不平衡,我们为无约束的CrossCoder构建了一个大小匹配的代理分区。对于每个字典特征ii,解码器有两列:Wdec[i,0,:]W\_\{\\text\{dec\}\}[i,0,:](特征解码到模型A残差流的方向)和Wdec[i,1,:]W\_\{\\text\{dec\}\}[i,1,:](特征解码到模型B残差流的方向)。我们定义*质量比* ri=log∥Wdec[i,0,:]∥2∥Wdec[i,1,:]∥2r\_\{i\}=\\log\\!\\frac\{\\lVert W\_\{\\text\{dec\}\}[i,0,:]\\rVert\_\{2\}\}\{\\lVert W\_\{\\text\{dec\}\}[i,1,:]\\rVert\_\{2\}\}(4) 因此ri≫0r\_\{i\}\\gg 0表示特征几乎只写入模型A(实际上是A独占),ri≪0r\_\{i\}\\ll 0表示模型B(实际上是B独占),ri≈0r\_\{i\}\\approx 0表示均衡贡献(共享)。对于DFC,分区掩码强制了这个比值:前819819个特征有Wdec[i,1,:]=0W\_\{\\text\{dec\}\}[i,1,:]=0(因此ri→+∞r\_\{i\}\\to\+\\infty),接下来的819819个特征有Wdec[i,0,:]=0W\_\{\\text\{dec\}\}[i,0,:]=0(ri→−∞r\_\{i\}\\to\-\\infty),其余6,5546\{,\}554个特征具有无约束的A和B解码器。对于CrossCoder,不存在这样的约束,因此我们按rir\_\{i\}对所有8,1928\{,\}192个特征进行排序,将前819819个标记为A独占代理,后819819个标记为B独占代理,中间6,5546\{,\}554个标记为共享代理。这样产生的分区切片大小与DFC完全相同,因此UMAP分离的任何差异都可归因于训练目标(分区掩码 vs. 无掩码),而非标签不平衡。 在匹配大小的情况下,CrossCoder的A偏向特征仍然与B偏向和共享特征均匀混合。CC中的A独占代理具有*负*轮廓系数(−0.168\-0.168)——平均而言,质量比偏向A的特征更接近非A偏向的质心而非自身质心——并且kk-NN纯度从DFC的0.9840.984下降到0.1580.158,即在A偏向特征的最近邻中恢复A独占代理标签的精度下降到大约先验概率|A|/D≈10%|A|/D\\approx 10\%,这是随机标签分配下10%10\%少数类的偶然水平。CC UMAP中的HDBSCAN聚类以ARI=0.08=0.08恢复质量比标签,而DFC为0.930.93:结构根本不存在。这反驳了DFC的清晰分离是UMAP伪影的替代解释:在匹配字典大小(D=8,192D=8\{,\}192)和匹配稀疏性(k=160k=160)的情况下,当去除分区掩码时,相同的UMAP流程不会产生分离。DFC图中的几何结构是由架构分区导致的,仅凭质量不对称不足以产生它。梯度掩码重组了特征方向,而不仅仅是解码器幅度。 参见图注图2:匹配超参数下的解码器UMAP(D=8,192D=8\{,\}192,k=160k=160;n_neighbors=30n\_\{\\text\{neighbors\}\}=30,min_dist=0.1\\min\\\_\\text\{dist\}=0.1,余弦度量,种子4242)。左图:DFC(dfc-D8k-excl10-freeexcl-k160)产生三个空间上不同的区域:A独占(红色),B独占(蓝色)和共享(灰色)。右图:CrossCoder(cc-D8k-k160)带有大小相同(819/819/6,554819/819/6\{,\}554)的质量比代理分区,显示A偏向和B偏向特征与共享特征在整个密集核心中均匀混合。 ## 5重建保真度与能力外溢 ### 5.1扫描级重建 表2:扫描均值±\\pm标准差,n=48n=48个交叉编码器,每个100100个保留提示。在4848个模型的扫描中,相对于重建前的基线,重建显著提升了RL模型的行为性能(表2 (https://arxiv.org/html/2606.26474#S5.T2))。所有4848个训练变体都提升了ModelAA的工具正确率(48/4848/48);在单侧精确二项符号检验中,针对偶然率0.50.5,这对应于p≈3.6×10−15p\\approx 3相似文章
CacheRL:基于缓存回滚和混合奖励的多轮工具调用智能体
CacheRL训练用于多步工具调用任务的小型智能体基础模型,通过缓存回滚和混合奖励塑造,以100倍更少的计算量实现了92%的过程准确率(接近GPT-5的94%),并在知识迁移、缓存感知奖励以及迭代SFT/GRPO训练方面进行了创新。
跨语言引导的比喻语言生成
本文探讨了多语言大语言模型中内部表示的跨语言迁移,用于比喻语言生成,表明在一种语言中学习到的激活方向可以有效引导其他语言的生成。
@neural_avb: 用我的 SLM 在本地生成类似 GRPO 的 rollout,并用这个微型 RM 作为评分标准。接下来我将在…
Neural_avb 发布了一个轻量级的 Answer-eq 奖励模型,用于问答任务的强化学习训练,声称与外部评判 LM 的一致性达到 80%,且比 F1/ROUGE/BertScore 更快。
Translate-R1:基于强化学习的成本感知翻译工具使用
Translate-R1引入了一种基于强化学习的方法,用于大语言模型中的成本感知翻译工具使用。该模型根据自身的理解能力和一个成本敏感性参数,学会决定何时翻译输入,从而在多种语言之间实现帕累托最优权衡。
利用可验证奖励强化学习激励参数知识以优化跨文化实体翻译
# 利用可验证奖励强化学习激励参数知识用于跨文化实体翻译 来源:[https://arxiv.org/html/2604.16881](https://arxiv.org/html/2604.16881) Jiang Zhou1, Xiaohu Zhao2, Xinwei Wu1, Tianyu Dong1, Hao Wang2, Yangyang Liu2, Heng Liu2, Linlong Xu2, Longyue Wang2, Weihua Luo2, Deyi Xiong1† 1天津大学 TJUNLP 实验室,中国 2阿里巴巴集团,中国 [dyxiong@tju\.edu\.cn](https://arxiv.org/html/2604.16881v1/mailto:[email protected]) ###### 摘